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文艺 复兴 以 来 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ， 也 正 是 这 样 的 优势 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ， 不 仅 壁 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ,我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 
发 展 的 几 十 年 间 积 淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计 
算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 
的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ”。 自 1998 年 开始 ， 我 们 
就 将 工作 重点 放 在 了 遂 选 、 移 译 国外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson、 
McGraw-Hill、Elsevier、MIT 、John Wiley & Sons 、Cengage 等 世界 著名 出 版 公司 建立 了 和 良 
好 的 合作 关系 ， 从 它们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum 、Bjarne Stroustrup、 
Brian W. Kernighan、 Dennis Ritchie、 Jim Gray、Afred V. Aho 、John E. Hopcroft、Jeffrey 
D. Ullman、 Abraham Silberschatz、William Stallings、Donald E. Knuth、 John L. Hennessy、 
Larry L. Peterson 等 大 师 名 家 的 一 批 经 典 作 品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 
学 习 、 研 究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 相助 ， 国 内 的 专家 不 仅 提 供 了 
中 肯 的 选 题 指导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 
在 中 国 的 传播 ， 有 的 还 专门 为 其 书 的 中 译本 作 序 。 迄 今 ,“ 计 算 机 科学 丛书 ”已 经 出 版 了 近 
500 个 品种 ， 这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书 
籍 。 其 影印 版 “经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完善 和 教材 改革 的 逐渐 
深化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 和 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽 善 尽 
美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公司 欢迎 老师 和 读者 对 我 们 
的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 : www.hzbook.com 
电子 邮件 : hzjsj@hzbook.com 
联系 电话 : (010 ) 88379604 
联系 地 址 ， 北京 市 西城 区 百 万 庄 南 街 1 号 
邮政 编码 : 100037 华章 科技 图 书 出 版 中 心 
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计算 机 体系 结构 是 计算 机 及 相关 学 科 的 专业 技术 基础 课程 ， 是 描绘 计算 机 的 过 去 、 现 在 
和 未 来 蓝图 的 课程 。 计 算 机 体系 结构 研究 软件 、 硬 件 功 能 分 配 和 对 软件 、 硬 件 接口 的 确定 。 
因此 ， 它 既 需 要 数字 逻辑 、 计 算 机 系统 、 计 算 机 组 成 原理 等 相关 方面 的 硬件 基础 知识 ， 又 需 
要 操作 系统 、 编 译 原 理 、 汇 编 语言 甚至 高 级 语言 等 相关 方面 的 软件 知识 。 很 多 人 觉得 这 些 内 
容 既 多 又 复杂 ， 虽然 知 道 对 未 来 工作 有 帮助 ， 但 面 对 繁 杂 的 前 导 知 识 常常 望而却步 。 本 书 专 
为 这 类 读者 准备 ， 特 别 是 不 想 深 入 了 解 硬 件 知识 的 专业 程序 开发 人 员 。 

本 书 从 程序 员 视 角 出 发 ,不 涉及 过 多 的 底层 人 硬件 基础 知识 ,但 又 深刻 清晰 地 描述 了 相关 
的 基本 原理 。 作 为 讲授 数字 逻辑 与 数字 系统 、 计 算 机 组 成 原理 以 及 计算 机 体系 结构 的 专业 
教师 ， 翻 译 完 本 书 之 后 ， 不 禁 感 叹 科 莫 博士 学 识 渊 博 ， 细 节 描 述 细 致 人 微 ， 同 时 整体 脉络 清 
晰 ， 有 助 于 广大 程序 员 全 面 了 解 计算 机 及 其 基本 原理 和 体系 结构 ， 从 而 实现 更 高 效 的 软件 
开发 。 

在 翻译 的 过 程 中 ， 译 者 根据 计算 机 学 会 计算 机 术语 审定 工作 委员 会 推荐 的 词汇 ， 对 原 书 
中 的 某 些 描 述 进行 了 符合 中 文 习 惯 的 转换 。 译 者 尽力 准确 反映 原著 的 描述 ,但 由 于 水 平 有 
限 ， 翻 译 中 难免 有 错漏 之 处 ， 奶 请 读者 和 同行 批评 指正 。 

最 后 ， 感 谢 家 人 和 朋友 的 支持 和 帮助 。 同 时 ， 要 感谢 参与 本 书 翻译 过 程 的 所 有 人 ， 特 别 
是 北京 市 三 帆 中 学 黄 天 量 ， 北 京 交通 大 学 附属 中 学 韩 乐 锋 ， 以 及 北京 邮电 大 学 计算 机 学 院 
的 赵 达 非 、 吕 汇 、 何 若 思 、 汤 洋 、 王 旭 飞 、 张 彦 涵 、 陈 俊 贤 、 王 瑟 、 许 瀚 元 、 桑 条 、 罗 婷 等 
人 ， 最 后 要 感谢 北京 邮电 大 学 计算 机 学 院 体系 结构 中 心 的 大 力 支 持 。 


北京 邮电 大 学 计算 机 学 院 

智能 通信 软件 与 多 媒体 北京 市 重点 实验 室 
黄 智 濒 ” 戴 志 涛 

2019 年 3 月 于 北京 
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硬件 工程 已 经 从 使 用 分 立 电 子 元 件 转向 使 用 可 编程 器 件 。 因 此 ， 编 程 变 得 更 加 重要 。 那 
些 理解 硬件 如 何 运转 和 熟知 基本 硬件 原理 的 程序 员 ， 可 以 更 加 高 效 且 少 犯 错误 地 构建 软件 系 
统 。 掌 握 计 算 机 体系 结构 的 基础 知识 使 得 编程 人 员 能 够 理解 软件 如 何 映射 到 硬件 上 ， 并 做 出 
更 好 的 软件 设计 选择 。 掌 握 底层 硬件 知识 也 有 助 于 调试 ， 因 为 它 可 以 让 程序 员 快 速 地 定位 问 
题 的 根源 。 

本 书 适用 于 一 个 学 期 的 本 科 课 程 。 在 众多 计算 机 科学 课程 中 ， 计 算 机 体系 结构 或 计算 机 
组 成 课程 是 唯一 介绍 计算 机 结构 基本 概念 的 课程 ， 这 些 概 念 有 助 于 学 生理 解 他 们 赖 以 编程 
的 计算 机 结构 。 遗 憾 的 是 ， 大 多 数 计算 机 体系 结构 书籍 都 是 硬件 工程 师 编 写 的 ， 目 标 读者 是 
那些 想 学 习 如 何 设计 硬件 的 学 生 。 本 书 则 采用 了 不 同 的 方法 : 不 再 专注 于 硬件 设计 和 工程 细 
节 ， 而 是 针对 程序 员 ， 解释 程 序 员 需要 知道 的 硬件 基础 知识 。 因 此 ， 本 书 从 程序 员 的 角度 解 
释 主题 ， 并 强调 其 对 程序 员 的 影响 。 

全 书 分 为 五 个 部 分 。 第 一 部 分 介绍 数字 逻辑 、 门 电路 、 数 据 通路 和 数据 表示 的 基础 知 
识 。 大 多 数学 生 喜 欢 这 种 简短 的 学 习 底 层 硬件 的 方式 (特别 是 本 书 不 介绍 细微 的 硬件 细节 )。 
第 二 至 四 部 分 涵盖 体系 结构 的 三 个 主要 方面 : 处 理 器 、 存 储 器 和 输入 /输出 系统 。 在 每 一 章 
中 ， 都 为 学 生 提 供 了 足够 的 背景 知识 ， 以 便 他 们 了 解 相关 机 制 如 何 运 作 及 其 对 程序 员 的 影 
响 ， 而 无 须 继续 了 解 许多 细节 。 最 后 ， 第 五 部 分 涵盖 并 行 、 流 水 线 、 功 耗 和 能 耗 以 及 性 能 等 
高 级 主题 。 

附录 A 描述 课程 的 一 个 重要 方面 一 一 实验 ， 学 生 可 以 通过 实践 学 习 。 尽 管 大 多 数 实验 
问题 都 集中 在 编程 上 ， 但 学 生 应 该 在 前 几 周 完成 在 面包 板 上 连接 门 电路 。 该 设备 价格 低廉 
(我 们 购买 供 学 生 实验 的 长 期 设备 时 ， 每 位 学 生花 费 少 于 15 美元 ， 学 生 自己 购买 实验 设备 花 
费 不 到 20 美元 )。 

附录 C 提供 对 x86 汇编 语言 和 x64 扩展 的 简单 介绍 。 许 多 老师 讲授 x86 系统 ， 要 求 将 
其 包含 在 内 。 该 材料 位 于 附录 中 ， 意 味 着 选择 RISC 汇编 语言 (例如 ，ARM 体系 结构 ) 的 老 
师 可 以 将 其 用 于 比较 。 

第 2 版 新 增 了 两 章 并 对 全 书 内 容 做 了 一 些 修改 和 更 新 。 例 如 ， 在 第 3 章 中 ， 有 关 数 据 通 
路 的 部 分 展示 了 计算 机 系统 的 组 件 ， 并 描述 了 当 指 令 执 行 时 数据 是 如 何在 这 些 组 件 间 流 动 
的 。 通 过 简单 的 例子 在 第 2 章 介 绍 的 数字 逻辑 与 接 下 来 章节 介绍 的 处 理 器 之 间 搭 建 了 桥梁 。 
在 第 20 章 中 ,覆盖 了 功 耗 与 能 耗 的 基本 概念 ， 读 者 无 须 了 解 更 多 细节 。 它 解释 了 为 什么 以 
半 速 运行 的 双核 处 理 器 芯片 的 功 耗 要 低 于 全 速 运 行 的 单 核 处 理 器 芯片 的 功 耗 。 

我 们 建立 了 一 个 与 本 书 配套 的 网 站 : http://www.eca.cs.purdue.edu。 
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Essentials of Computer Architecture, Second Edition 


简介 及 概览 





1.1 体系 结构 的 重要 性 


计算 机 系统 无 处 不 在 。 手 机 、 视 频 游 戏 、 家 用 电器 和 和 车辆 都 包含 可 编程 处 理 器 。 这 些 系 
统 都 依赖 于 软件 ， 这 引出 一 个 重要 问题 : 为 什么 构建 软件 的 人 员 对 学 习 计 算 机 体系 结构 感 
兴趣 ?答案 是 ， 理 解 硬 件 有 助 于 编写 更 小 、 速 度 更 快 且 不 易 出 错 的 代码 。 体 系 结构 的 基础 
知识 还 有 助 于 程序 员 了 解 相 对 的 操作 成 本 (例如 ， 输 入 /输出 操作 所 需 的 时 间 与 算术 操作 所 
需 的 时 间 之 间 的 比较 ) 以 及 编程 选择 的 影响 。 最 后 ， 了 解 硬 件 如 何 工作 有 助 于 程序 员 进行 调 
试 一 一 知晓 硬件 的 人 ， 有 更 多 的 线索 来 发 现 故 障 的 根源 。 简 而 言 之 ， 程 序 员 对 底层 硬件 了 解 
越 多 ， 开 发 软件 时 就 越 得 心 应 手 。 


1.2 ”学习 基础 知识 

任何 硬件 工程 师 都 会 告诉 你 : 用 于 构建 计算 机 系统 的 数字 硬件 非常 复杂 。 除 了 无 数 技术 
和 构成 每 一 项 技术 的 复杂 的 电子 元 器 件 系列 外 ， 工 程 师 还 必须 掌握 设计 规则 ， 规 定 如 何 构建 
元 件 以 及 如 何 将 元 件 互 连 以 形成 系统 。 此 外 ， 技 术 不 断 发 展 ， 更 新 、 更 小 、 更 快 的 组 件 不 断 
出 现 。 

幸运 的 是 ， 正 如 本 书 所 示 ， 在 不 知道 低级 技术 细节 的 情况 下 了 解 计算 机 系统 架构 组 件 是 
可 能 的 。 本 书 重点 介绍 必要 的 基础 知识 ， 并 基于 广泛 的 概念 性 术语 解释 计算 机 体系 结构 
它 描述 了 每 一 个 主要 组 件 ， 并 考察 它们 在 整个 系统 中 的 作用 。 因 此 ， 读 者 在 理解 本 书 时 并 不 
需要 电子 或 电气 工程 方面 的 背景 知识 。 


1.3 ”本 书 结构 

我 们 将 讨论 的 主题 是 什么 ? 本 书 分 为 五 个 部 分 。 

基础 知识 。 第 一 部 分 介绍 本 书 其 余部 分 所 必需 的 两 个 主题 一 一 数字 逻辑 和 数据 表示 。 我 
们 将 看 到 在 每 种 情况 下 问题 都 是 一 样 的 : 使 用 电子 机 制 来 表示 和 处 理 数 字 信息 。 

处 理 器 。 作 为 计算 机 体系 结构 的 三 个 关键 领域 之 一 ， 处 理 器 涉及 计算 (例如 算术 运算 ) 
和 控制 〈 例 如 执行 一 系列 步 又)。 我 们 将 了 解 基本 构建 模块 ， 并 了 解 这 些 模 块 在 现代 中 央 处 
理 器 (CPU) 中 的 使 用 方式 。 

存储 器 。 计 算 机 体系 结构 的 第 二 个 关键 领域 是 存储 系统 ， 专 注 于 数字 信息 的 存储 和 访 
问 。 我 们 将 考察 物理 内 存 系统 和 虚拟 内 存 系统 ， 并 理解 计算 中 最 重要 的 概念 之 一 一 一 缓存 。 

输入 和 输出 。 计 算 机 体系 结构 的 第 三 个 关键 领域 是 输入 和 输出 ， 侧 重 于 计算 机 和 各 类 设 
备 间 互 连 ， 例 如 麦克 风 、 键 盘 、 鼠 标 、 显 示 器 、 磁 盘 和 网 络 等 。 我 们 将 了 解 总 线 技术 ， 了 解 
处 理 器 如 何 使 用 总 线 与 设备 进行 通信 ， 以 及 了 解 设 备 驱动 程序 的 作用 。 

高 级 主题 。 最 后 一 个 部 分 将 以 多 种 形式 聚焦 两 个 重要 主题 一 一 并 行 和 流水 线 。 我 们 将 看 
到 如 何 使 用 并 行 或 流水 线 硬件 提高 整体 性 能 。 





2 ”和 锣 1 竟 菩 介 及 述 禾 


1.4 一 笔 带 过 的 内 容 

将 所 有 主题 消减 为 必要 的 基础 知识 就 意味 着 要 选择 忽略 一 些 内 容 。 就 本 书 而 言 ， 我 们 选 
择 广 度 而 不 是 深度 一 一 当 需 要 选择 时 ， 我 们 关注 概念 而 不 是 细节 。 因 此 ， 本 书 涵盖 了 计算 机 
体系 结构 中 的 主要 主题 ,但 省 略 了 不 太 知 名 的 变化 体 和 底层 工程 细节 。 例 如 ， 讨 论 基 本 与 
非 门 电路 的 操作 方式 时 ， 仅 给 出 了 简单 的 描述 ， 而 没有 讨论 确切 的 内 部 结构 或 精确 描述 门 如 
何 损耗 流入 的 电流 。 同 样 ， 在 对 处 理 器 和 内 存 系统 的 讨论 中 略 过 了 工程 师 需要 的 性 能 定量 分 
析 。 相 反 ， 我 们 采取 高 层次 的 观点 ， 旨 在 帮助 读者 理解 整体 设计 及 其 对 程序 员 的 影响 ， 而 不 
是 准备 让 读者 构建 硬件 。 


1.5 术语 : 体系 结构 和 设计 

本 书 将 使 用 术语 “体系 结构 ”来 指 代 计算 机 系统 的 整体 组 织 。 计 算 机 体系 结构 类 似 于 一 
张 蓝图 一 一 设 定 了 主要 组 件 间 的 互 连 ， 以 及 每 个 组 件 的 整体 功能 ， 而 不 提供 许多 细节 。 在 构 
建 实现 一 个 给 定 体系 结构 的 数字 系统 之 前 ， 工 程 师 必须 将 整个 体系 结构 转换 为 一 种 实际 设 
计 ， 需 要 考虑 体系 结构 忽略 的 细节 。 例 如 ， 设 计 必 须 指 定 组 件 如 何 组 织 到 芯片 上 ， 芯 片 如 何 
组 织 到 电路 板 上 ， 以 及 如 何 将 电源 分 布 到 每 个 电路 板 上 。 最 终 实现 设计 时 ， 需 要 选择 特定 的 
硬件 去 构建 这 个 系统 。 设 计 代表 落实 给 定 体系 结构 的 一 种 可 能 方式 ， 一 种 实现 代表 落实 给 定 
设计 的 一 种 可 能 方式 。 关 键 在 于 体系 结构 的 描述 是 抽象 的 ， 我 们 必须 记 住 许多 设计 可 以 满足 
给 定 的 体系 结构 ， 许 多 实现 可 以 落实 给 定 的 设计 。 


1.6 小 结 


本 书 涵盖 了 计算 机 体系 结构 的 基础 知识 : 数字 逻辑 、 处 理 器 、 存 储 器 、 输 入 /输出 和 高 
级 主题 。 本 书 不 需要 电气 工程 或 电子 学 方面 的 背景 知识 。 相 反 ， 本 书 通过 阐述 概念 解析 主 
题 ， 避 人 免 底层 细节 ， 并 专注 于 对 程序 员 很 重要 的 内 容 。 
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2.1 引言 


本 章 介绍 数字 逻辑 的 基础 知识 。 目 标 很 简单 一 一 为 读者 提供 足够 的 背景 知识 以 了 解 后 续 
章节 。 尽 管 许多 底层 细节 是 无 关 紧 要 的 ， 但 是 程序 员 确 实 需要 硬件 的 基础 知识 以 理解 其 对 软 
件 的 影响 。 因 此 ， 我 们 不 需要 深入 研究 电气 细节 ， 讨 论 基础 物理 学 ， 或 者 学 习 工 程 师 在 连接 
器 件 时 所 遵循 的 设计 规则 。 相 反 ， 我们 将 学 习 一 些 基础 知识 ， 使 我 们 能 够 理解 复杂 的 数字 系 
统 是 如 何 工作 的 。 


2.2 ”数字 计算 装置 


我 们 使 用 术语 “数字 计算 机 ”来 指 代 这 样 的 设备 : 它 可 以 执行 一 系列 计算 步 又， 而 且 操 
作 的 数据 是 离散 值 。 另 一 种 替代 设备 称 为 模拟 计算 机 ， 它 操作 的 数据 则 是 随时 间 连 续 变 化 
的 。 数 字 计 算 的 优点 是 精确 。 由 于 数字 计算 机 已 经 变 得 既 便宜 又 可 靠 ， 模 拟 计 算 已 经 退缩 到 
一 些 特定 领域 。 

由 于 一 次 计算 可 能 牵涉 数 十 亿 个 单独 的 步骤， 可 靠 性 需求 出 现 了 。 如 果 一 台 计 算 机 误解 
了 一 个 值 或 一 个 集合 ， 那 么 将 无 法 得 到 正确 的 计算 结果 。 因 此 ， 计 算 机 设计 设 定 的 故障 率 远 
低 于 十 全 分 之 一 8 

如 何 实 现 高 可 靠 性 和 高 速度 ? 最 早 的 计算 装置 之 一 称 为 算盘 ， 它 依靠 人 移动 珠子 跟踪 计 
算 和 。 到 20 世纪 初 ， 机 械 齿 轮 和 杠杆 被 用 来 生产 收银 机 和 加 法 机 。 到 了 20 世纪 40 年 代 ， 
早期 的 电子 计算 机 由 真空 管 构 成 。 虽然 它们 比 机 械 装 置 快 得 多 ,但 是 真空 管 (其 需要 灯丝 变 
红 ) 是 不 可 靠 的 一 一 在 使 用 几 百 小 时 后 灯丝 会 烧灼 。 

1947 年 晶体 管 的 发 明 大 大 改变 了 计算 。 与 真空 管 不 同 ， 品 体 管 不 需要 灯丝 ， 不 消耗 太 
多 功率 ， 不 会 产生 太 多 热量 ， 也 不 会 烧 煤 。 此 外 ， 唱 体 管 的 成 本 比 真空 管 的 低 得 多 。 因 而 ， 
现代 数字 计算 机 是 由 使 用 晶体 管 构建 的 电子 电路 组 成 的 。 


2.3 电气 术语 : 电压 和 电流 

电子 电路 依赖 于 与 电荷 的 存在 和 流动 有 关 的 物理 现象 。 物 理学 家 已 经 发 现 了 探测 电荷 的 
存在 和 控制 其 流动 的 方法 ， 工 程 师 已 经 开发 出 能 够 快速 执行 这 些 功能 的 机 制 。 这 些 机 制 构成 
了 现代 数字 计算 机 的 基础 。 

工程 师 使 用 术语 电压 和 电流 来 指 电量 的 可 量化 特性 : 两 点 之 间 的 电压 (以 伏特 为 单位 ) 
表示 势能 差 ， 电 流 (以 安培 8 为 单位 ) 表示 电子 沿 着 路 径 (例如 ， 沿 着 电线 ) 的 流动 。 可 以 用 
水 进行 很 好 的 类 比 : 电压 对 应 于 水 压 ， 电 流 对 应 于 在 给 定时 间 流 过 管道 的 水 量 。 如 果 水 箱 上 
破 了 一 个 洞 ， 水 开始 从 这 个 洞 流 出 ， 水 压 就 会 下 降 ， 如 果 电 流 开始 流 经 导线 ， 电 压 将 下 降 。 


日 volt， 简 称 伏 (V)。 一 一 编辑 注 
旦 ampere， 简 称 安 (A)。 一 一 编辑 注 
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关于 电压 最 重要 的 一 点 是 ， 电 压 只 能 被 测量 为 两 点 之 间 的 差 值 ( 即 , 测量 是 相对 的 )。 
因此 ， 用 来 测量 电压 的 电压 表 总 是 有 两 个 探 针 ; 在 连接 两 个 探 针 之 前 ， 仪 表 不 会 记录 电压 。 
为 了 简化 测量 ,假设 这 两 个 点 中 其 中 一 个 点 为 零 伏 ， 另 一 个 点 为 相对 于 零 的 电压 值 。 电 气 工 
程 师 用 “地 线 ” 这 个 术语 来 指 代 那 些 假定 为 零 伏 的 点 。 在 本 书 所 示 的 所 有 数字 电路 中 ,我们 
假设 电力 是 由 两 根 导线 提供 的 : 一 根 导 线 是 地 线 ， 假 设 是 零 伏 ， 另 一 根 导线 是 五 伏 。 

幸运 的 是 ,我们 可 以 理解 数字 逻辑 的 基本 原理 ， 而 不 需要 知道 更 多 有 关 电 压 和 电流 的 知 
识 。 我 们 只 需要 了 解 电流 是 可 控 的 ， 以 及 电 可 用 来 表示 数字 值 。 


2.4 晶体管 

控制 电流 流动 的 装置 是 一 种 被 称 为 晶体 管 的 半导体 器 件 。 在 底层 ， 所 有 的 数字 系统 
都 是 由 晶体 管 组 成 的 。 具 体 来 说 ， 数 字 电路 使 用 被 称 为 金属 氧化 物 半 导体 场 效 应 晶体 管 
( MOSFET) 的 晶体 管 形式 ， 缩 写 为 FET。 在 品 体 硅 基础 上 ， 利 用 P 型 和 N 型 硅 层 、 氧 化 硅 
绝缘 层 (一 种 玻璃 ) 以 及 将 晶体 管 连接 到 其 余部 分 的 金属 导线 ， 形 成 MOSFET 电路 。 

用 于 数字 电路 的 晶体 管 可 实现 开关 装置 的 功能 ， 通 过 电子 方式 操作 而 不 是 机 械 方式 操 
作 。 也 就 是 说 ,与 基于 机 械 力 打开 和 关闭 的 机 械 开关 相反 ， 唱 体 管 通过 是 否 施加 电压 实现 打 
开 和 关闭 操作 。 每 个 晶体 管 具有 三 个 连接 到 电路 其 余部 分 的 端子 ( 即 导 线 )。 在 两 个 端子 (一 
个 源 极 和 一 个 漏 极 ) 之 间 有 一 个 沟 道 ， 其 电阻 可 控 。 如 果 电 阻 低 ， 电 流 从 源 极 流向 漏 极 ; 如 
果 电 阻 很 高 ， 则 不 会 有 电流 流 过 。 第 三 个 端子 ( 称 为 机 极 ) 控制 电阻 。 在 接 下 来 的 章节 中 ， 
我 们 将 看 到 如 何 使 用 开关 式 晶 体 管 构建 更 多 用 于 建造 数字 系统 的 复杂 组 件 。MOSFET 晶体 
管 有 两 种 类 型 ， 都 用 于 数字 逻辑 电路 。 图 2.1 显示 了 工程 师 用 来 表示 这 两 种 类 型 的 图 示 。9 


源 极 源 极 
当 栅 极 电压 当 栅 极 电压 
为 正 时 电流 为 负 时 电流 
桥 极 会 从 源 极 流 树 极 一 会 从 源 极 流 
到 漏 极 到 漏 极 
漏 极 漏 极 


图 2.1 用 于 逻辑 电路 的 两 类 晶体 管 。a) 一 类 晶体 管 ， 当 栅 极 电压 为 正 时 开关 打开 ; b) 另 一 类 
晶体 管 ， 当 栅 极 电压 为 0 或 者 负 时 开关 打开 

在 图 2.1 中 ， 当 栅 极 电压 为 正 时 ( 即 ， 超 过 某 个 最 小 靖 值 )， 图 2.1a 所 示 的 晶体 管 打 开 。 
当 顶 极 出 现 适当 的 电压 时 ， 一 个 较 大 的 电流 会 流 过 源 极 和 漏 极 间 的 连接 路 径 。 当 电压 在 栅 极 
消失 时 ， 另 两 个 端子 间 的 大 电流 停止 。 图 2.1b 所 示 的 晶体 管 在 栅 极 上 有 一 个 小 圆 ， 采 用 另 
一 种 工作 方式 。 每 当 栅 极 上 的 电压 低 于 阀 值 〈( 例 如， 接近 于 零 ) 时 ， 大 电流 从 源 极 流 向 漏 极 ， 
并 且 当 栅 极 电压 高 时 停止 流动 。 这 两 种 形式 被 称 为 互补 ， 整 体 芯片 技术 称 为 CMOS (互补 金 
属 氧化 物 半导体 )。CMOS 的 主要 优势 在 于 可 以 设计 使 用 极 低 功 耗 的 电路 。 


2.5 逻辑 门 
数字 电路 是 如 何 构建 的 ? 一 个 晶体 管 有 两 个 可 能 的 状态 一 有 电流 流动 ， 或 者 没有 电流 


日 从 技术 上 讲 ,该 图 描述 了 MOSFET 的 p 沟 道 和 n 沟 道 形式 。 
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流动 。 因 此 ， 电 路 是 用 一 个 被 称 为 布尔 代数 的 二 值 数学 系统 设计 的 。 大 多 数 程序 员 都 熟悉 三 
种 基本 的 布尔 函数 : 与 (and)、 或 (or)、 非 (not)。 图 2.2 列 出 了 每 种 函数 可 能 的 输入 值 及 
其 对 应 的 结果 。 





图 2.2 布尔 函数 以 及 每 一 种 可 能 的 输入 情况 。 逻 辑 值 0 表示 false， 逻 辑 值 1 表示 true 


布尔 函数 为 数字 硬件 提供 了 概念 基础 。 更 重要 的 是 ， 可 以 使 用 晶体 管 来 构造 有 效 的 电 
路 ， 实 现 每 个 布尔 函数 。 例 如 ， 考 虑 布尔 函数 “ 非 ”。 典 型 的 逻辑 电路 使 用 正 电 压 表示 布尔 
值 1， 零 电压 来 表示 布尔 值 0。 用 0 伏 表示 0， 正 电 
压 表示 1， 意 味 着 计算 布尔 函数 “ 非 ” 的 电路 可 以 由 正 电压 (用 表示 ) 
两 个 晶体 管 构建 。 也 就 是 说 ， 电 路 在 一 根 导线 上 输 
入 ， 在 另 一 根 导线 上 产生 一 个 输出 ， 输 出 始终 与 输入 
相反 一 一 当 输入 为 正 电 压 时 ， 输 出 为 零 ， 当 输入 为 零 输入 输出 
电压 时 ， 输 出 为 正 电压 9。 图 2.3 展示 了 一 个 实现 布尔 
函数 “ 非 ” 的 电路 。 

2.3 是 一 个 示意 图 。 示 意图 中 的 每 条 线 对 应 于 
将 一 个 组 件 连 接 到 另 一 个 组 件 的 导线 。 实 心 点 表示 电 零 电 压 
气 连接 ， 线 末端 的 小 空心 圆 表示 外 部 连接 。 除 了 一 路 
输入 和 一 路 输出 外 ,该 电路 还 有 连接 至 正 电压 和 和 零 电 
压 的 导线 。 

实现 布尔 函数 的 电子 电路 与 计算 机 程序 的 显著 不 
同 之 处 在 于 : 电路 自动 连续 运行 。 也 就 是 说 ,一 旦 提供 电源 (图 中 的 正 电 压 )， 唱 体 管 就 会 
执行 其 功能 并 在 电源 保持 开启 时 继续 执行 一 一 如 果 输 入 改变 ， 则 输出 也 会 改变 。 因 此 ， 与 程 
序 中 的 函数 不 同 ， 程 序 函 数 仅 在 调用 时 才 产 生 结果 ， 电 路 的 输出 始终 可 用 并 随时 可 用 。 

为 了 理解 电路 如 何 工作 ， 可 以 将 晶体 管 视 为 能 够 在 源 极 和 漏 极端 子 之 间 形 成 电气 连接 。 
当 输 入 为 正 时 ， 顶 部 晶体 管 关 闭 ， 底 部 晶体 管 导 通 ， 这 意味 着 输出 连接 到 零 伏 。 相 反 ， 当 输 
入 电压 为 零 时 ， 顶 部 晶体 管 导 通 ， 底 部 晶体 管 关 闭 ， 这 意味 着 输出 连接 到 正 电压 。 因 此 ， 输 
出 电压 表示 与 输入 电压 的 逻辑 相反 。 

一 个 细节 为 布尔 函数 增加 了 一 些 复杂 性 : 由 于 电子 电路 的 工作 方式 ， 每 个 函数 的 反 函 数 
需要 较 少 的 晶体 管 。 因 此 ， 大 多 数 数字 电路 实现 逻辑 “或 ”和 逻辑 “与 ”的 反 困 数 : 或 非 
(nor) 和 与 非 (nand)。 另 外 ， 某 些 电路 还 使 用 异 或 〈(xor) 函数 。 图 2.4 列 出 了 每 种 函数 的 可 
能 输入 及 其 对 应 的 结果 @ 。 


图 2.3 一 对 互补 的 晶体 管 实 现 了 一 个 
布尔 函数 “ 非 ” 


日 一 些 数字 电路 使 用 5 伏 ， 一 些 使 用 3.3 伏 ; 硬件 工程 师 不 是 设 定 某 一 电压 ， 而 是 用 Vs 来 表示 给 定 电路 的 
电压 。 
@ 后 续 章 节 使 用 术语 “ 真 值 表 ”来 描述 图 中 使 用 的 表格 。 


AnandB 





图 2.4 逻辑 门 电路 实现 的 与 非 、 或 非 和 异 或 函数 


2.6 使 用 晶体 管 实现 的 “与 非 ” 逻 辑 门 电路 

对 于 本 书 的 其 余部 分 ， 晶体管 及 其 互 连 的 细节 并 不 重要 。 我 们 需要 了 解 的 是 ， 晶体管 可 
用 于 创建 上 述 每 个 布尔 函数 ， 并 且 这 些 函数 可 用 于 构建 数字 电路 ， 从 而 制造 计算 机 。 在 离开 
晶体 管 主题 之 前 ， 我 们 将 研究 一 个 例子 : 使 用 四 个 晶体 管 实现 “与 非 ” 功 能 的 电路 。 图 2.5 
展示 了 电路 图 。 如 上 所 述 ， 我们 使 用 术语 逻辑 门 来 描述 所 产生 的 电路 。 实 际 上 ， 人 逻辑 门 包含 
附加 组 件 ， 例 如 三 极 管 和 电阻 器 ， 用 于 保护 晶体 管 免 受 静电 放电 和 过 量 电 流 的 影响 ; 因为 它 
们 不 影响 门 的 逻辑 运算 ， 所 以 图 中 省 略 了 额外 的 组 件 。 

正 电压 (V，) 





零 电压 
图 2.5 ”由 四 个 晶体 管 互 连 实现 的 与 非 逻 辑 门 电路 


为 了 理解 电路 如 何 工 作 ， 请 注意 ， 如 果 两 个 输入 都 代表 逻辑 1， 则 底部 的 两 个 晶体 管 将 
导 通 ， 这 意味 着 输出 将 连接 到 零 伏 (逻辑 0 )。 和 否则 ， 项 部 的 两 个 晶体 管 中 至 少 有 一 个 将 导 
通 ， 输 出 将 连接 到 正 电压 (逻辑 1 )。 当 然 ， 必 须 仔 细 设 计 电 路 ， 以 确保 输出 不 会 同时 连接 
到 正 电压 和 零 电 压 〈 和 否则 晶体 管 将 被 破坏 )。 

图 2.5 中 的 示意 图 使 用 了 一 个 通用 约定 : 只 有 出 现实 心 点 ， 交 叉 的 两 条 线 才 表示 电气 连 
接 。 这 个 想法 与 在 图 中 绘制 顶点 和 边 的 方式 类 似 : 除非 绘制 了 点 (或 圆 )， 否 则 两 条 交 又 的 
边 的 交叉 点 并 不 表示 该 处 存在 一 个 项 点。 在 电路 图 中 ， 没 有 点 的 两 条 交叉 线 对 应 于 没有 物理 
连接 的 情况 ;我 们 可 以 想象 成 导线 之 间 存 在 间隙 ( 即 导 线 不 接触 )。 为 了 清晰 显示 没有 连接 ， 
线路 在 交叉 点 周围 留 出 一 点 空间 。 

现在 我 们 已 经 看 到 了 如 何 用 晶体 管 创建 逮 辑 门 ， 不 需要 再 考虑 单个 晶体 管 。 在 本 章 的 其 
余部 分 中 ,我们 将 讨论 逮 辑 门 而 不 提 及 它们 的 内 部 机 制 。 后 续 章 节 讨 论 由 逻辑 门 组 成 的 更 大 
更 复杂 的 装置 。 
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2.7 ”表示 逻辑 门 的 符号 

设计 电路 时 ， 工 程 师 会 考虑 互 连 逻辑 门 而 不 是 互 连 晶体 管 。 每 个 门 都 由 一 个 符号 表示 ， 
工程 师 绘制 出 门 间 互 连 的 示意 图 。 图 2.6 显示 了 与 非 门 、 或 非 门 、 反 相 器 ( 非 门 )、 与 门 、 或 
门 以 及 异 或 门 的 符号 。 该 图 遵循 标准 术语 ， 使 用 术语 “ 反 相 器 ”来 表示 执行 布尔 “ 非 ”操作 


的 逻辑 门 。 
247 47 


与 非 门 或 非 门 


Ea 


异 或 门 
图 2.6 通常 用 于 逻辑 门 的 符号 。 每 一 个 逻辑 门 的 输入 显示 在 左 侧 ， 门 的 输出 显示 在 右 侧 


2.8 逻辑 门 互 连 的 例子 
实现 门 电路 的 电子 器 件 被 归 为 晶体 管 - 晶体 管 逻辑 器 件 (TITL)， 因 为 逻辑 门 中 的 输出 唱 
体 管 被 设计 为 直接 连接 到 其 他 逻辑 门 的 输入 晶体 管 。 实 际 上 ， 输 出 可 以 连接 到 多 个 输入 9 。 
例如 ， 如 果 磁 盘 正 在 旋转 且 用 户 按 下 掉 电 按钮 时 ， 假 定 一 个 电路 需要 输出 为 真 。 逻 辑 上 ， 输 
出 是 两 个 输入 的 布尔 与 。 然 而 ， 我 们 假定 仅 使 用 与 非 门 、 或 非 门 和 反 相 器 来 实现 设计 。 在 这 
种 情况 下 ， 与 函数 可 以 直接 通过 将 一 个 与 非 门 的 输出 作为 一 个 反 相 器 的 输入 而 实现 。 图 2.7 
说 明了 这 种 连接 。 
来 自 电源 
按钮 的 输入 本 
ta ) [> AR 
的 输入 
图 2.7 逻辑 门 连接 的 示意 图 。 一 个 逻辑 门 的 输出 直接 连接 到 另 一 个 逻辑 门 的 输入 


作为 门 互 连 的 另 一 个 例子 ， 考 虑 图 2.8 中 显示 三 个 输入 的 电路 。 





图 2.8 带 有 三 个 输入 (标记 为 X 了 和 2) 的 电路 示例 。 内 部 互 连 也 被 标记 ， 以 便于 我 们 讨论 中 间 值 


图 2.8 中 的 电路 实现 什么 功能 ? 有 两 种 方法 可 以 回答 这 个 问题 : 我 们 可 以 确定 电路 对 应 
的 布尔 公式 ， 或 者 枚 举 输入 值 的 所 有 八 种 可 能 组 合 时 的 输出 值 情况 。 为 了 有 助 于 理解 这 两 各 


日 技术 上 限制 了 该 输出 可 以 连接 的 输入 数量 ， 我 们 使 用 术语 “ 扇 出 ”指定 一 个 输出 可 支持 的 输入 数量 。 


方法 ， 我 们 标记 了 电路 中 的 每 个 输入 和 每 个 中 间 连 接 以 及 输出 。 

要 推导 出 布尔 公式 ， 请 注意 输入 端 了 直接 连接 到 反 相 器 。 因 此 ,4 处 的 值 对 应 于 布尔 
函数 not Y。 或 非 门 的 输入 来 自 not Y (来自 反 相 器 ) 和 输入 端 Z， 因 此 B 处 的 值 对 应 于 布尔 
函数 : 

Znor (not 7) 
由 于 与 非 门 接着 一 个 反 相 器 的 组 合 产生 了 两 输入 的 布尔 与 函数 ， 输 出 值 对 应 于 : 
Xand (Z nor (not 7)) 

上 述 公式 也 可 以 表示 为 : 

Xand not (Z or (not 7)) (21) 

我 们 已 经 描述 了 使 用 布尔 表达 式 作为 理解 电路 的 一 种 方式 ， 除 此 之 外 ， 布 尔 表 达 式 在 电 
路 设计 中 也 很 重要 。 工 程 师 可 通过 查找 描述 电路 行为 的 布尔 表达 式 开始 设计 。 编 写 这 样 的 表 
达 式 可 以 帮助 设计 师 理 解 问题 和 特殊 情况 。 一 旦 找到 正确 的 表达 式 ， 工 程 师 就 可 以 将 表达 式 
转换 为 等 效 的 硬件 门 电路 。 

使 用 布尔 表达 式 具 体 指定 电路 有 一 个 显著 的 优点 : 有 各 种 可 用 于 布尔 表达 式 的 工具 。 可 
以 使 用 工具 分 析 表 达 式 ， 最 简化 表达 式 ?， 并 将 表达 式 转换 为 互相 连接 的 门 级 图 。 自 动 最 简 
化 特别 有 用 ， 因 为 它 可 以 减少 所 需 的 门 数 。 也 就 是 说 ， 存 在 可 以 将 布尔 表达 式 作为 输入 的 工 
具 ， 可 产生 需要 更 少 门 的 等 价 表达 式 ， 然 后 将 输出 转换 为 电路 图 。 我 们 可 以 总 结 如 下 : 


or 


”存在 将 布尔 表达 式 作为 输入 并 产生 优化 电路 作为 输出 的 工具 。 


用 于 理解 逻辑 电路 的 第 二 种 技术 包括 列举 所 有 可 能 的 输入 ,然后 在 电路 中 的 每 个 点 处 找 
到 相应 的 值 。 例 如 ,图 2.8 中 的 电路 有 三 个 输入 ， 所 以 存在 八 种 可 能 的 输入 组 合 。 我 们 使 用 
术语 真 值 表 来 描述 这 种 枚 举 。 调 试 电路 时 经 常 使 用 真 值 表 。 图 2.9 包含 了 图 2.8 电路 的 真 值 
表 。 该 表 列 出 了 X、Y 了 和 Z 导 线 上 所 有 可 能 的 输入 组 合 以 及 标记 为 4、B8、C 和 输出 的 导线 上 
的 结果 值 。 

图 2.9 中 的 表格 从 列 出 所 有 可 能 的 输入 开始 ， 然 
后 逐个 填写 其 余 列 。 在 这 个 例子 中 ， 有 三 个 输入 (XX、 
Y 和 2Z)， 每 个 输入 可 以 设置 为 0 或 1。 从 而 表格 的 X、 
Y 和 Z 列 中 有 八 种 可 能 的 值 组 合 。 一 旦 将 这 三 列 填写 
完 ， 这些 输 入 列 可 用 于 派生 其 他 列 。 例 如 ， 电 路 中 的 
点 4 表示 第 一 个 反 相 咒 的 输出 ， 它 是 输入 了 的 反 相 
值 。 因 此 ， 列 4 可 以 通过 反 转 列 了 中 的 值 来 填充 。 类 
似 地 ， 列 B 表示 列 4 和 列 Z 的 或 非 值 。 

真 值 表 可 用 于 验证 布尔 表达 式 一 一 可 以 为 所 有 可 
能 的 输入 计算 表达 式 并 将 其 与 真 值 表 中 的 值 进行 比较 。 例 如 ， 图 2.9 中 的 真 值 表 可 用 于 验证 
上 面 的 布尔 表达 式 ( 式 (2.1 )) 及 其 等 价 表 达 式 : 

Xand Yand (not 2)) 

要 执行 验证 ， 需 要 为 所 有 可 能 的 XY 和 Z 组 合计 算 布尔 表达 式 的 值 。 对 于 每 个 组 合 ， 

将 表达 式 的 值 与 真 值 表 的 输出 列 中 的 值 进行 比较 。 
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对 应 图 2.8 所 示 电 路 的 真 值 表 





日 附录 B 列 出 了 用 于 最 简化 布尔 表达 式 的 一 组 规则 。 
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2.9 实现 二 进 制 加 法 的 数字 电路 
逻辑 电路 如 何 实现 整数 运算 ? 例如 ， 考虑 使 用 门 电 路 实现 两 个 二 进 制 数 相 加 。 可 以 应 用 
在 小 学 学 到 的 算术 : 将 两 个 数字 按 列 对 齐 。 然 后 ， 从 最 低位 开始 ， 将 每 列 数 字 相 加 。 如 果 某 
一 列 的 和 溢出 ， 则 将 总 和 的 高 位 数字 进位 到 下 一 列 。 唯 一 的 区 别 是 计算 机 用 二 进 制 而 不 是 十 
进 制 表示 整数 。 例 如 ， 图 2.10 说 明了 以 二 进 制 进行 的 20 和 29 的 加 法 运算 。 
执行 加 法 的 电路 需要 每 列 有 一 个 模块 ( 即 操作 数 中 的 每 个 位 )。 低 位 模块 需要 两 个 输入 
并 产生 两 个 输出 : 和 以 及 进位 。 该 电路 称 为 半 加 器 ， 包 含 一 个 与 门 和 一 个 异 或 门 。 图 2.11 
显示 了 门 的 连接 方式 。 
进位 进位 进位 
MM 
和 


0 vA 


图 2.10 带 进位 的 二 进 制 加 法 的 例子 图 2.11 半 加 器 电路 ， 两 个 输入 ,产生 出 
两 个 输出 一 一 和 以 及 进位 


尽管 半 加 器 电路 可 以 计算 低位 的 总 和 ， 但 对 于 其 他 位 而 言 需要 一 个 更 加 复杂 的 电路 。 特 
别 是 每 个 后 续 接 连 的 计算 都 有 三 个 输入 : 两 个 输入 位 和 一 个 从 右边 列 过 来 的 进位 位 。 图 2.12 
展示 了 这 个 必要 的 电路 ， 称 为 全 加 器 。 请 注意 两 个 输入 位 之 间 的 对 称 性 一 一 任何 一 个 输入 都 
可 以 连接 到 计算 前 序 位 的 和 的 电路 上 。 


位 1 












输出 的 进位 


图 2.12 ”全 加 器 电路 ， 可 以 接收 两 个 输入 和 一 个 低位 传递 过 来 的 进位 


如 图 2.12 所 示 ， 一 个 完整 的 加 法 器 由 两 个 半 加 器 电路 和 一 个 额外 的 门 (逻辑 或 ) 组 成 。 
或 连接 来 自 两 个 半 加 器 的 进位 输出 ， 并 在 两 个 半 加 器 中 的 任何 一 个 报告 进位 时 提供 进位 输出 。 

尽管 全 加 器 可 以 有 八 种 可 能 的 输入 组 合 ， 但 我 们 在 验证 正确 性 时 只 需要 考虑 六 种 。 要 明 
白 为 什么 ， 请 注意 全 加 器 对 称 地 对 待 位 1 和 位 2。 因 此 ， 我 们 只 需要 考虑 三 种 情况 : 两 个 输 
入 位 都 是 零 ; 两 个 输入 位 都 是 1 ; 输入 位 之 一 是 1， 而 另 一 个 是 0。 进 位 输入 的 出 现 将 可 能 
的 情况 翻 倍 ， 变 成 六 种 。 建 议 练习 一 下 使 用 真 值 表 来 验证 全 加 器 电路 确实 为 每 个 输入 组 合 提 
供 了 正确 的 输出 。 


2.10 多 逻辑 门 的 集成 电路 
由 于 上 述 逻 辑 门 不 需要 许多 晶体 管 ， 使 用 TTL 工艺 可 以 在 一 个 廉价 的 电子 组 件 上 制造 
出 多 个 逻辑 门 。 实 现 逻 辑 门 电路 的 一 个 流行 的 TTL 工艺 电路 集合 称 为 7400 系列 8。 该 系列 


日 除了 本 节 介绍 的 逻辑 门 之 外 ，7400 系列 还 包括 更 复杂 的 机 制 ， 如 触发 器 、 计 数 器 和 多 路 分 配器 ， 本 章 后 面 
将 对 此 进行 介绍 。 
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中 的 每 个 组 件 都 分 配 了 一 个 以 74 开头 的 组 件 编号 。 在 物理 上 ，7400 系列 的 许多 组 件 由 长 约 
1.5 英寸 8 的 矩形 封装 和 十 四 根 铜 线 ( 称 为 引 脚 ， 用 于 将 器 件 连接 到 电路 中 )， 称 为 14 引 脚 的 
双 列 直 插 式 封装 (14 引 脚 DIP)。 更 复杂 的 7400 系列 芯片 需要 额外 的 引 脚 (例如 ， 一 些 使 用 
16 引 脚 DIP 配置 )。 

要 了 解 7400 系列 芯片 上 如 何 安排 多 个 门 ， 请 考虑 下 面 的 三 个 示例 。 组 件 编号 7400 的 器 
件 包 含 四 个 与 非 门 ， 组 件 编号 7402 的 器 件 包含 四 个 或 非 门 ， 组 件 编号 7404 的 器 件 包含 六 个 
反 相 器 ( 非 门 )。 图 2.13 显示 了 每 种 情况 下 各 个 逻辑 门 的 输入 和 输出 如 何 连接 到 引 脚 。 





图 2.13 实现 逻辑 门 的 三 个 商用 集成 电路 的 引 脚 连接 示意 图 


尽管 该 图 并 未 显示 逻辑 门 如 何 连接 到 引 脚 14 和 7， 但 这 两 个 引 脚 是 必 不 可 少 的 ， 因 为 
它们 提供 了 运行 逻辑 门 所 需 的 电源 一 一 如 标签 所 示 ， 引 脚 14 连接 到 正 五 伏 ， 引 脚 7 连接 到 
地 ( 零 伏 )。 


2.11 不 只 需要 组 合 逻 辑 电 路 


布尔 逻辑 门 的 互 连 (例如 上 述 电 路 ) 称 为 组 合 逻 辑 电 路 ， 因 为 输出 仅仅 是 输入 值 的 布尔 
组 合 。 在 组 合 逻 辑 电路 中 ， 输 出 仅 在 输入 值 改 变 时 才 会 改变 。 尽 管 组 合 逻辑 电路 是 必 不 可 少 
的 ， 但 还 不 够 一 一 计算 机 需要 的 电路 可 以 在 不 等 待 输入 改变 的 情况 下 采取 行动 。 例 如 ， 当 用 
户 按 下 按钮 开启 计算 机 时 ， 硬 件 必 须 执 行 一 系列 操作 ， 并 且 在 用 户 没 有 进一步 输入 的 情况 下 
按 序 进 行 。 实 际 上 ， 用 户 不 需要 持续 按 住 电 源 按钮 一 一 即使 在 用 户 松 开 按钮 后 ， 启 动 顺序 仍 
会 继续 。 此 外 ， 再 次 按 下 相同 的 按钮 会 导致 硬件 触发 关闭 序列 操作 。 

电源 按钮 如 何 实现 关闭 系统 和 启动 系统 ? 数字 逻辑 如 何在 不 需要 改变 输入 值 的 情况 下 执 
行 一 系列 操作 ? 在 输入 恢复 到 初始 状态 后 ， 数 字 电路 如 何 继续 工作 ? 答案 涉及 其 他 机 制 。 逻 
辑 门 的 复杂 布置 可 以 提供 一 些 所 需 的 功能 ， 余 下 的 则 需要 一 个 称 为 时 钟 的 硬件 设备 。 下 一 节 
将 介绍 复杂 电路 的 示例 ， 后 面 的 章节 将 介绍 时 钟 。 


2.12 维持 状态 的 电路 


除了 包含 基本 布尔 门 电路 的 电子 组 件 外 ,还 可 以 通过 包含 互 连 逻 辑 门 来 维持 状态 。 也 就 
是 说 ,电子 电路 中 的 输出 是 先前 输入 序列 和 当前 输入 的 函数 。 这 种 逻辑 电路 称 为 时 序 电路 。 
锁 存 器 是 最 基本 的 时 序 电 路 之 一 。 锁 存 器 的 概念 非常 简单 : 锁 存 器 有 一 个 输入 和 一 个 输 
出 。 另 外 ， 锁 存 器 还 有 一 个 额外 的 输入 叫 作 使 能 线 。 只 要 使 能 线 设置 为 逻辑 1， 锁 存 器 就 会 





日 1 英寸 =0.0254 米 。 一 一 编辑 注 
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使 其 输出 成 为 输入 的 精确 副本 。 也 就 是 说 ， 当 使 能 线 是 1 时 ， 如 果 输 入 发 生变 化 ， 输 出 也 
会 随 着 发 生变 化 。 但 是 ， 一 旦 使 能 线 更 改 为 逻辑 0， 输 出 将 与 其 当前 值 保持 一 致 并 且 不 会 更 
改 。 因 此 ， 当 使 能 线 设置 为 1 时 ， 锁 存 器 “ 记 住 ” 输 入 的 值 ， 并 将 输出 保持 为 该 值 。 

如 何 设计 锁 存 器 ?x 有 趣 的 是 ,使 用 布尔 逻辑 门 的 组 合 就 足够 了 。 图 2.14 说 明了 一 个 使 
用 四 个 与 非 门 创建 的 锁 存 器 电路 。 这 个 想法 是 ， 当 使 能 线 是 逻辑 零 时 ， 右 边 的 两 个 与 非 门 记 
住 输出 的 当前 值 。 由 于 两 个 与 非 门 的 输出 反馈 到 对 方 的 输入 端 ， 输 出 值 将 保持 稳定 。 当 使 能 
线 是 逻辑 1 时 ， 左 侧 的 两 个 门将 数据 输入 (在 下 部 线 上 ) 及 其 反 相 值 (在 上 部 线 上 ) 传递 到 
右 侧 的 一 对 门 上 。 


2.13 传播 延迟 


要 理解 锁 存 器 的 操作 ， 必 须知 道 每 个 门 都 有 传播 延迟 。 也 就 是 说 ， 输 入 变化 和 输出 变化 
之 间 会 出 现 延 迟 。 在 传播 延迟 期 间 ， 输 出 保持 在 先前 的 值 。 当 然 ， 唱 体 管 的 设计 是 为 了 使 延 
迟 最 小 ， 并 且 可 以 小 于 1 微 秒 ， 但 是 有 限 的 延迟 依然 存在 。 要 了 解 传 播 延 迟 如 何 影响 电路 ， 
请 考虑 图 2.15 中 的 电路 。 


数据 输入 
输出 
图 2.14 由 四 个 与 非 门 实现 的 一 位 锁 存 器 〈 门 控 锁 图 2.15 将 输出 反馈 连接 到 输入 
存 器 ) 的 反 相 器 


如 图 2.15 所 示 ， 反 相 器 的 输出 连接 回 输 入 。 看 起 来 这 种 连接 似乎 并 不 合理 ， 因 为 反 相 

器 的 输出 始终 与 其 输入 相反 。 这 种 电路 的 布尔 表达 式 是 : 
输出 =not (输出 ) 

这 在 数学 上 是 矛盾 的 。 

传播 延迟 解释 了 电路 工作 。 在 任何 时 候 ， 如 果 输 出 为 0， 则 反 相 器 的 输入 将 为 0。 经 过 
传播 延迟 后 ， 反 相 器 将 输出 更 改 为 1。 一旦 输出 变 为 1， 则 会 发 生 另 一 个 传播 延迟 ， 并 且 输 
出 将 再 次 变 为 0。 因 为 循环 会 一 直 持 续 下 去 ， 所 以 我 们 说 电路 通过 产生 一 个 在 0 和 !1 之 间 来 
回 变化 的 输出 〈 称 为 方 波 ) 来 振荡 。 传 播 延迟 的 概念 解释 了 图 2.14 中 锁 存 器 的 操作 
保持 不 变 ， 直 到 传播 延迟 结束 。 





2.14 ”使 用 锁 存 器 构建 存储 器 


我 们 将 看 到 处 理 器 包含 一 组 用 作 短 期 存储 单元 的 寄存 器 。 典 型 地 ， 寄 存 器 保存 在 计算 中 
使 用 的 值 ( 例 如， 即将 进行 加 法 的 两 个 值 ) 。 每 个 寄存 器 保存 多 个 位 ， 大 多 数 计算 机 都 有 32 
位 或 64 位 寄存 器 。 寄 存 器 电路 说 明了 数字 硬件 设计 的 一 个 重要 原则 : 
通过 的 电路 构成 的 


性 ee 
Sh Ne i 
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要 理解 这 个 原理 ， 请 考虑 图 2.16， 它 显示 了 如 何 用 四 个 1 位 锁 存 器 ?构建 一 个 4 位 寄存 

器 电路 。 在 该 图 中 ， 所 有 四 个 锁 存 器 的 使 能 线 连接 在 一 起 以 形成 寄存 器 的 使 能 输入 。 尽 管 硬 

件 由 四 个 独立 的 电路 组 成 ， 但 连接 使 能 线 意 味 着 四 个 锁 存 器 可 以 步调 一 致 地 工作 。 当 使 能 线 

设置 为 敢 辑 1 时 ， 寄 存 器 接收 四 个 输入 位 并 相应 地 设置 四 个 输出 。 当 使 能 线 变 为 零 时 ， 输 出 

保持 固定 。 也 就 是 说 ， 寄 存 器 已 经 存储 了 其 输入 的 任何 值 ， 并 且 输 出 值 不 会 改变 ， 直 到 使 能 
线 再 次 变 为 逻辑 1。 

寄存 器 的 使 能 线 





寄存 器 的 
输入 位 


寄存 器 的 
输出 位 


图 2.16 由 四 个 1 位 锁 存 器 构造 的 4 位 寄存 器 


重点 是 : 





2.15 触发 器 和 波形 图 

触发 器 是 另 一 种 电路 ， 其 输出 取决 于 先前 的 输入 以 及 当前 的 输入 。 触 发 器 有 各 种 形式 。 
一 种 形式 的 行为 与 计算 机 上 的 电源 开关 完全 相同 : 输入 第 一 次 变 为 1 时 ,触发 器 开启 输出 ， 
输入 第 二 次 变 为 1 时 ， 触 发 器 关闭 输出 。 与 用 于 控制 电源 的 按钮 开关 一 样 ， 触 发 器 不 响应 连 
续 输入 一 一 输入 必须 返回 到 0， 然 后 值 为 1 才 会 导致 触发 器 改变 状态 。 也 就 是 说 ， 无 论 何 时 
输入 从 0 变 为 1， 触 发 器 都 将 其 输出 从 当前 状态 改变 为 其 相反 态 。 图 2.17 显示 了 一 系列 输入 


及 其 对 应 的 输出 结果 。 
2 wa 
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图 2.17 触发 器 如 何 对 一 系列 输入 做 出 反应 的 示意 图 。 当 输入 从 0 变 为 1 ( 即 ， 从 零 伏 变 为 五 


伏 ) 时 ， 和 触发 器 输出 改变 


日 尽管 该 图 只 显示 了 一 个 4 位 寄存 器 ， 但 典型 处 理 器 中 使 用 的 寄存 器 存储 了 32 位 或 64 位 。 
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由 于 触发 器 要 响应 一 系列 输入 ,所 以 它 不 是 一 个 简单 的 组 合 逻 辑 电 路 。 触 发 器 不 能 由 单 
个 门 构建 ， 然 而 可 以 由 一 对 锁 存 器 构成 。 

为 了 理解 触发 器 是 如 何 工作 的 ， 以 图 形 形 式 绘制 输入 和 输出 关于 时 间 的 函数 是 很 有 帮 
助 的 。 工 程 师 使 用 术语 波形 图 9 命名 这 种 图 形 。 在 大 多 数 数字 电路 中 ， 转 换 由 一 个 时 钟 来 协 
调 ， 这 意味 着 转换 只 发 生 在 有 规律 的 时 间 间 隔 内 。 图 2.18 给 出 了 图 2.17 中 触发 器 值 的 变化 
图 。 图 2.18 中 标 有 时 钟 的 行 显示 了 时 钟 脉 冲 出 现 的 位 置 ， 每 个 输入 转换 被 限制 发 生 在 其 中 
一 个 时 钟 脉冲 上 。 现 在 ， 理 解 一 般 概念 就 足够 了 ， 后 面 的 章节 会 解释 时 钟 。 


1 
输出 : 0 一 ed 


时 钟 : 
时 间 增 加 


图 2.18 显示 了 触发 器 如 何 对 图 2.17 中 的 一 系列 输入 做 出 反应 的 波形 图 。 沿 着 x 轴 的 标记 表 
示 时 间 ， 每 个 对 应 于 一 个 时 钟 周期 


我 们 说 过 ， 和 触发 器 每 次 遇 到 逻辑 1 时 都 会 改变 其 输出 。 实 际 上 ， 波 形 图 显示 了 对 电路 设 
计 人 员 来 说 很 重要 的 确切 细节 和 时 序 。 在 这 个 例子 中 ， 波 形 图 表明 只 有 当 〈 时 钟 ) 输入 上 升 
(从 0 变 到 1 ) 时 才 引 起 触发 器 状态 改变 。 也 就 是 说 ,输出 不 会 改变 ， 直 到 (时 钟 ) 输入 从 0 
转换 为 1。 工程 师 说 ,输出 变化 发 生 在 (时钟) 输入 改变 的 上 升 沿 ; 如 果 (时 钟 ) 输入 从 1 变 
为 0 时 ,电路 的 输出 发 生变 化 ， 则 电路 被 认为 是 在 下 降 沿 发 生 状 态 变 化 。 

实际 上 ， 额 外 的 细节 会 使 触发 器 复杂 化 。 例 如 ， 大 多 数 触发 器 都 包含 一 个 名 为 复位 
( reset) 的 附加 输入 ， 它 将 使 输出 置 于 0 状态 。 另 外 还 有 其 他 几 种 触发 器 。 例 如 ， 一 些 触发 
器 提供 了 与 主 输 出 相反 的 第 二 个 输出 〈 在 某 些 电路 中 ,会 用 反 相 输出 以 少 用 逻辑 门 )。 


2.16 二进制 计数 器 


触发 器 只 提供 两 个 可 能 的 输出 值 : 0 或 1。 然而， 一 组 触发 器 可 以 串联 连接 形成 一 个 累 
加 数字 的 二 进 制 计数 器 。 就 像 触 发 器 一 样 ， 计 数 器 只 有 一 个 输入 。 然 而 ， 与 触发 器 不 同 ， 计 
数 器 具有 多 个 输出 。 用 二 进 制 数字 统计 检测 到 多 少 个 输入 脉冲 并 输出 。 我 们 将 输出 视 为 从 
零 开 始 ， 并 且 每 次 输入 从 0 跳 转 到 1 时 ， 输 出 加 1。 因 此 ， 具 有 三 条 输出 线 的 计数 器 可 以 累 
计 0 到 7 之 间 的 数 。 图 2.19 展示 了 一 个 计数 器 ， 并 显示 了 输入 改变 时 输出 如 何 改变 。 

实际 上 ， 实 现 二 进 制 计数 器 的 电子 部 分 有 几 个 附加 功能 。 例 如 ， 计 数 器 具有 用 于 将 计数 
重 置 为 零 的 附加 输入 ， 并 且 还 可 以 具有 和 暂时 停止 计数 器 的 输入 〈 即 ， 忽 略 输入 并 冻结 输出 )。 
更 重要 的 是 ， 因 为 它 具 有 固定 数量 的 输出 引 脚 ， 每 个 计数 器 都 可 以 表示 一 个 最 大 值 。 当 累计 
计数 超过 最 大 值 时 ， 计 数 器 将 输出 重 置 为 零 ， 并 使 用 附加 输出 来 指示 发 生 溢出 。 


名 transition diagram， 这 里 是 指 波形 图 
昌 实际 上 , 输入 是 一 个 周期 不 规律 的 时 钟 脉冲 。 一 一 译 者 注 
上 利 第 3 章 更 详细 地 介绍 数据 表示 。 目 前 ， 理 解 输 出 代表 一 个 数字 就 足够 了 。 
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OO 


输入 时 间 增加 


OO 和 “OEO~`“O0 
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b) 
图 2.19 a) 二 进 制 计数 器 的 示意 图 ; b) 一 系列 输入 值 和 相应 的 输出 。 标 记 为 十 进 制 的 列 给 出 
了 输出 的 对 应 十 进 制 值 


2.17 ”时 钟 和 时 序 


尽管 我 们 已 经 看 到 了 数字 逻辑 的 基本 组 成 部 分 ， 但 是 对 于 数字 计算 机 来 说 ， 一 个 附加 功 
能 是 绝对 必要 的 一 一 自动 操作 。 也 就 是 说 ， 计 算 机 必须 能 够 执行 一 系列 指令 而 无 须 改 变 任何 
输入 。 前 面 讨论 的 数字 逻辑 电路 都 使 用 这 个 特性 响应 一 个 或 多 个 输入 变化 ; 在 输入 改变 之 
前 ， 它 们 不 执行 任何 功能 。 数 字 逻 辑 电 路 如 何 执行 一 系列 步骤 ? 

答案 是 一 种 被 称 为 时 钟 的 机 制 ， 它 允许 硬件 在 不 需要 改变 输入 的 情况 下 采取 行动 。 实 际 
上 ， 大 多 数 数字 逻辑 电路 被 认为 受 时 钟 控制 ， 这 意味 着 时 钟 信号 ( 而 不 是 输入 的 变化 ) 控制 
和 同步 独立 组 件 和 子 组 件 的 操作 ， 以 确保 它们 按 预期 一 起 工作 《〈 例 如 ， 保 证 电路 的 后 续 阶 段 
须 等 待 先前 阶段 的 传播 延迟 )。 

什么 是 时 钟 ? 与 该 术语 的 通用 定义 不 同 ， 硬 件 工程 师 使 用 术语 “时 钟 ”来 指 以 规则 速率 
振荡 的 电子 电路 ， 这 些 振 荡 信 号 被 转换 成 一 系列 交 蔡 的 1 和 0。 虽然 时 钟 可 以 由 一 个 反 相 器 
( 见 图 2.15 ) 创建 ， 但 大 多 数 时 钟 电 路 使 用 自然 振荡 的 石英 晶体 来 提供 精确 频率 的 信号 。 时 
钟 电路 放大 信号 并 将 其 从 正弦 波 变 为 方 波 。 因 此 ， 我 们 将 时 钟 视 为 以 规则 速率 发 射 0 和 !1 值 
的 交替 序列 。 时 钟 的 速度 以 赫 效 (Hz) 为 单位 度量 ， 表 示 时 钟 信号 每 秒 从 1 到 0 周期 循环 变 
化 的 次 数 。 高 速 数字 计算 机 中 的 大 多 数 时 钟 频率 范围 从 100 兆赫 〈MHz) 到 几 千 兆赫 (GHz) 
不 等 。 例 如 ， 目 前 典型 处 理 器 使 用 的 时 钟 频率 大 约 为 3GHz。 

人 们 很 难 想象 电路 以 如 此 高 的 速度 变化 。 为 了 使 这 个 概念 清晰 ， 让 我 们 考虑 一 个 以 1Hz 
的 极 低速 度 运 行 的 时 钟 。 这 样 的 时 钟 可 用 来 控制 与 用 户 的 接口 。 例 如 ， 如 果 计 算 机 包含 一 个 
LED 指示 灯 ， 该 灯 可 以 亮 灭 闪烁， 指示 计算 机 处 于 活动 状态 ， 则 需要 使 用 一 个 慢 速 时 钟 控 
制 LED。 请 注意 ，1Hz 的 时 钟 频率 意味 着 时 钟 在 一 秒 内 完成 一 整个 周期 。 也 就 是 说 ， 时 钟 在 
半 个 周期 内 发 出 逻辑 1， 然 后 在 另外 半 个 周期 发 出 逻辑 0。 如 果 电 路 在 时 钟 发 出 逻辑 1 时 打 
开 LED， 则 LED 将 保持 打开 半 秒 钟 ， 然 后 关闭 半 秒 钟 。 

0 和 1 的 交替 序列 如 何 使 数字 电路 更 强大 ? 为 了 便于 理解 ， 我们 将 考虑 一 个 简单 的 时 序 
电路 。 假 设 在 启动 过 程 中 ,计算 机 必须 执行 以 下 一 系列 步 又 : 

。 检测 电池 。 

。 开 电 源 并 检测 内 存 。 
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e 开始 磁盘 旋转 。 

e 开启 屏幕 。 

e 从 磁盘 读 取 引 导 扇 区 到 内 存 中 。 

e 启动 CPU。 

为 了 简化 说 明 ， 我 们 将 假定 每 个 步骤 最 多 需要 一 秒 完成 ， 然 后 才能 开始 下 一 步 。 因 此 ， 
我 们 需要 一 个 电路 ,一 旦 它 开始 工作 ， 将 按照 一 秒 的 时 间 间 隔 按 顺序 执行 六 个 步骤 ， 而 不 需 
要 进一步 改变 输入 。 

现在 ,我 们 将 重点 关注 电路 的 本 质 ， 并 考虑 它 后 续 如 何 开始 。 按 顺序 执行 六 个 步 又 任务 
的 电路 可 以 由 三 个 构建 块 构造 : 时 钟 、 二 进 制 计数 器 和 名 为 译 码 器 / 多 路 分 配器 的 设备 ( 通 
常 缩写 为 demux) 。 我 们 已 经 介绍 过 计数 器 ， 并 且 会 假设 有 一 个 时 钟 可 以 以 每 秒 一 个 周期 的 
速率 产生 数字 输出 。 最 后 一 个 组 件 〈 即 译 码 器 /多 路 分 配器 ) 是 一 个 单一 的 集成 电路 ， 它 使 
用 二 进 制 值 将 输入 映射 到 一 组 输出 。 我 们 将 使 用 译 码 功 能 来 选择 输出 。 也 就 是 说 ， 译 码 器 将 
二 进 制 值 作 为 输入 ， 并 使 用 该 值 来 选择 输出 。 任 何 时 候 只 有 一 个 译 码 器 的 输出 是 打开 的 ; 其 
他 所 有 的 都 关闭 一 一 当 输 入 线 代表 二 进 制 值 i 时 ， 译 码 器 选择 第 i 个 输出 。 图 2.20 说 明了 这 
个 概念 9。 

当 用 作 译 码 器 时 ， 该 设备 仅仅 选择 其 输出 线 中 的 一 条 ; 当 用 作 多 路 分 配器 时 ， 器 件 会 接 
收 一 个 额外 的 输入 ， 并 将 其 传递 到 选 定 的 输出 。 译 码 器 功能 和 更 复杂 的 多 路 分 配器 功能 都 可 
以 由 布尔 逻辑 门 构成 。 

译 码 器 为 我 们 的 简单 时 序 机 制 提供 了 最 后 一 个 需要 的 部 件 一 一 当 我 们 结合 时 钟 、 计 数 器 
和 译 码 器 时 ， 所 得 到 的 电路 可 以 执行 一 系列 步 又 。 例 如 ， 图 2.21 显示 了 时 钟 输出 作为 二 进 
制 计数 器 输入 的 连接 图 ， 二 进 制 计数 器 的 输出 用 作 译 码 器 的 输入 。 
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“110” 启动 CPU 


“tt 未 使 用 


图 2.20 具有 三 条 输入 线 和 八条 输出 线 的 译 图 2.21 使 用 时 钟 创建 执行 六 个 步骤 序列 的 电路 ， 计 
码 器 示意 图 。 当 输入 x、y 和 = 的 值 数 器 的 输出 线 直 接连 接 到 译 码 器 的 输入 线 
分 别 为 0、1 和 1 时 ， 从 顶部 向 下 数 
第 四 个 输出 被 选中 


为 了 理解 电路 如 何 工 作 ， 假 定 计 数 器 已 重 置 为 零 。 由 于 计数 器 输出 为 000， 因 此 译 码 器 
选择 最 上 部 未 使 用 ( 即 未 连接 ) 的 输出 。 当 时 钟 从 逻辑 0 变 为 逻辑 1 时 ， 操 作 开始 。 计 数 器 
累积 计数 ， 它 将 输出 更 改 为 001。 当 输入 改变 时 ， 译 码 器 选择 标记 为 测试 电池 的 第 二 个 输 
出 。 假 定 第 二 根 输出 线 连接 到 执行 必要 测试 的 电路 。 第 二 个 输出 保持 选 定 一 秒 。 在 这 一 秘 
内 ， 时 钟 输出 保持 逻辑 1 半 秒 ， 然 后 恢复 成 逻辑 0 且 持 续 半 秒 。 当 时 钟 输出 变 回 逻辑 1 时 ， 


日 文中 描述 的 功能 其 实 是 多 路 分 配器 ， 图 2.20 中 缺少 数据 输入 线 ， 只 有 地 址 选择 线 yz。 一 一 译 者 注 
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计数 器 输出 线 变 为 010， 译 码 器 选择 第 三 个 输出 ， 它 连接 到 测试 内 存 的 电路 。 

当然 ， 细 节 很 重要 。 例 如 ， 某 些 译 码 器 芯片 会 选择 输出 0， 另 一 些 会 输出 1。 电 气 细节 
也 很 重要 。 为 了 与 其 他 器 件 兼容 ， 时 钟 线 必 须 使 用 5 伏 代 表 逻 辑 1，0 伏 代 表 罗 辑 0。 此 外 ， 
为 了 直接 连接 ， 作 为 译 码 器 的 输入 ， 二 进 制 计 数 器 的 输出 线 的 二 进 制 编码 必须 与 译 码 器 的 
二 进 制 编码 一 致 。 第 3 章 将 更 详细 地 讨论 数据 表示 ; 现在 ， 我 们 假设 输出 值 和 输入 值 是 兼 
容 的 。 


2.18 ”反馈 的 重要 概念 


图 2.21 中 的 简化 电路 缺少 一 个 重要 特征 : 无 法 控制 操作 〈 即 启动 或 停止 该 序列 ) 。 由 于 
时 钟 永远 运行 ， 图 中 的 计数 器 从 零 到 最 大 值 进行 计数 ， 然 后 再 次 从 零 开 始 计数 。 结 果 ， 译 码 
器 将 重复 循环 输出 ， 每 个 输出 保持 一 秒 ， 然 后 再 进入 下 一 个 输出 。 

很 少 有 数字 电路 反复 执行 相同 的 一 系列 步骤。 如 何在 六 个 步骤 执行 后 停止 序列 ? 解决 方 
案 在 于 一 个 基本 概念 : 反馈 。 反 馈 是 复杂 数字 电路 的 核心 ， 因 为 它 允 许 处 理 结果 影响 电路 的 
工作 方式 。 在 计算 机 启动 顺序 中 ， 每 个 步骤 都 需要 反馈 。 例 如 ， 如 果 磁 盘 无 法 启动 ， 则 无 法 
从 磁盘 读 取 引 导 扇 区 。 

我 们 已 经 在 图 2.14 的 锁 存 器 电路 中 看 到 用 于 保持 数据 值 的 反馈 ， 因 为 每 个 最 右边 的 与 
非 门 的 输出 反馈 都 作为 另 一 个 门 的 输入 。 关 于 反馈 的 另 一 个 例子 是 ， 考 虑 如 何 使 用 译 码 器 的 
最 后 输出 ( 称 为 F) 来 停止 执行 序列 。 一 个 简单 的 解决 方案 包括 使 用 FF 的 值 来 防止 时 钟 脉冲 
到 达 计 数 器 。 也 就 是 说 ， 不 是 直接 将 时 钟 输出 连接 到 计数 器 输入 ， 而 是 插入 逻辑 门 ， 只 允许 
当 FF 的 值 为 0 时 ,将 其 输入 计数 器 。 就 布尔 代数 表达 式 而 言 ， 计 数 器 输入 应 该 是 

时 钟 and (not 万 
也 就 是 说 ， 只 要 下 为 假 ， 计 数 器 输入 应 该 等 于 时 钟 ; 但 是 ， 当 F 为 真 时 ,计数 器 输入 变 为 
(并 且 保 持 ) 零 。 图 2.22 显示 了 如 何 使 用 两 个 反 相 器 和 一 个 与 非 门 实现 必要 的 功能 。 


译 码 器 





这 两 个 逻辑 门 执行 
布尔 “与 ”函数 
ee————~ 





图 2.22 对 图 2.21 中 电路 的 修改 ,包括 反馈 以 在 每 次 遍历 每 个 输出 后 停止 处 理 


图 2.22 中 的 反馈 非常 明显 ， 因 为 最 后 一 个 输出 和 组 合 电 路 的 输入 端 之 间 存 在 明确 的 物 
理 连接 。 从 该 图 中 还 可 以 很 容易 地 看 出 为 什么 反馈 机 制 有 时 称 为 反馈 循环 9 。 


9 在 用 于 构建 触发 器 的 逻辑 门 之 间 也 存在 反馈 回路 。 
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2.19 ”启动 序列 


图 2.22 显示 可 以 使 用 反馈 来 终止 处 理 过 程 。 但 是 ,该 电路 仍然 不 完整 ， 因 为 它 不 包含 
人 允许 序列 启动 的 机 制 。 幸 运 的 是 ， 添 加 启动 机 制 是 很 容易 的 。 要 理解 为 什么 ， 请 回想 一 下 ， 
计数 器 中 包含 一 个 单独 的 输入 线 ， 可 将 计数 重 置 为 零 。 让 电路 启动 所 需要 的 只 是 另 一 个 连接 
到 计数 器 复位 的 输入 (例如 ， 来 自用 户 按 下 的 按钮 )。 

当 用 户 按 下 按钮 时 ， 计 数 器 复位 为 零 ， 这 将 导致 计数 器 的 输出 变 为 000。 当 接收 到 全 和 零 
输入 时 ， 译 码 器 打开 第 一 个 输出 ， 并 关闭 最 后 一 个 输出 。 当 最 后 一 个 输出 关闭 时 ， 与 非 门 允 
许 时 钟 脉冲 通过 ， 计 数 器 开始 运行 。 

虽然 这 种 方法 确实 启动 了 序列 ， 但 允许 用 户 重 置 计 数 器 可 能 会 导致 问题 。 例 如 ， 考 虑 如 
果 用 户 在 启动 顺序 中 变 得 不 耐烦 并 再 次 按 下 按钮 会 发 生 什么 情况 。 一 旦 计数 器 复位 ， 序列 从 
头 再 次 开始 。 在 某 些 情况 下 ， 执 行 两 次 操作 只 rie 但 是 ,在 其 他 情况 下 ， 重 复 操作 
会 导致 问题 (例如 ， 某 些 磁 盘 驱动 器 要 求 一 次 只 发 出 一 个 命令 )。 因 此 ， 生 产 系 统 使 用 复杂 
Rin een ti 

虽然 只 包含 几 个 组 件 ， 但 该 示例 演示 了 一 个 重要 概念 : 一 组 布尔 逻辑 门 和 时 钟 足以 执行 
一 系列 逻辑 步骤 。 重 点 是 : 





x 


在 我 们 创建 通用 计算 机 之 前 ， 只 需要 一 个 额外 的 概念 一 一 可 编程 性 。 第 6 章 扩展 了 对 硬 
件 的 讨论 ， 展 示 了 如 何 使 用 这 里 描述 的 基本 组 件 来 构建 一 个 可 编程 处 理 器 ， 它 使 用 内 存 中 的 
程序 确定 操作 顺序 。 


2.20 ”软件 迭代 与 硬件 复制 


当 我 们 考虑 硬件 时 ， 重 要 的 是 要 记 住 软件 和 硬件 在 针对 一 组 条 目的 处 理 方式 上 的 重大 差 
异 。 在 软件 中 ， 处 理 多 个 条 目的 基本 范式 由 和 迭代 组 成 一 一 程序 员 编写 代码 ， 反 复查 找 集合 中 
的 下 一 个 条 目 并 将 操作 应 用 于 该 条 目 。 由 于 底层 系统 一 次 只 操作 一 个 条 目 ， 程 序 员 必 须 指 定 
条 目的 数量 。 和 迭代 对 于 编程 必 不 可 少 ， 因 此 大 多 数 编程 语言 都 提供 了 让 程序 员 清 楚 地 表达 和 迭 
代 的 语句 (例如 for 循环 )。 

尽管 可 以 构建 硬件 执行 迭代 ， 但 这 样 做 很 困难 ， 并 且 产 生 的 硬件 复杂 难 懂 。 人 恰恰 相反 的 
是 ， 处 理 多 个 条 目的 基本 硬件 范式 由 复制 组 成 一 一 硬件 工程 师 创建 电路 的 多 个 副本 ， 并 人 允许 
每 个 副本 在 一 个 条 目 上 执行 操作 ， 所 有 副本 同时 执行 。 例 如 ， 为 了 计算 一 对 32 位 值 的 布尔 
运算 ， 硬 件 工程 师 为 一 对 单 比 特 位 设计 一 个 电路 ， 然 后 将 电路 复制 32 次 。 于 是 ， 为 了 计算 
两 个 32 位 整 型 值 的 按 位 异 或 ， 硬 件 设计 者 可 以 使 用 32 个 异 或 门 。 

复制 对 于 程序 员 来 说 是 难以 理解 的 ， 因 为 复制 与 良好 的 编程 原则 背道而驰 。 程 序 员 被 教 
导 避 免 重复 代码 。 然 而 ， 在 硬件 世界 中 ， 复 制 有 三 个 明显 的 优点 : 优雅 、 快 速 和 准确 。 优 雅 
是 因为 复制 避免 了 所 需 的 额外 硬件 ， 包 括 选 择 单个 条 目 ， 移 动 所 选 条 目 到 所 需 位 置 ， 以 及 将 
结果 取 回 。 除 了 避免 相关 值 和 结果 的 移动 引起 的 延迟 之 外 ， 通 过 允许 同时 执行 多 个 操作 ， 复 
制 提高 了 性 能 。 例 如 ， 同 时 工作 的 32 个 反 相 器 可 以 反 转 32 位 ， 其 所 需 时 间 与 一 个 反 相 器 反 
转 一 位 的 时 间 是 完全 相同 的 。 如 果 一 台 计 算 机 可 以 同样 的 时 间 操 作 64 位 ， 这 种 加 速 尤 其 重 


务 2 昔 牧人 字 这 帮 基 础 19 


要 。 并 行 操作 的 概念 贯穿 本 书 ， 后面 的 章节 解释 了 如 何在 更 大 规模 上 应 用 并 行 性 。 
复制 的 第 三 个 优点 集中 在 高 可 靠 性 。 复 制 使 硬件 更 易于 验证 ， 因 此 可 靠 性 增加 。 例 如 ， 
要 验证 32 位 操作 是 否 正常 工作 ,硬件 工程 师 只 需要 验证 一 个 单 比特 位 的 电路 一 一 其 余 的 位 





工作 相同 ， 因 为 复制 了 相同 的 电路 。 因 此 ,硬件 比 软件 更 可 靠 。 即 使 是 法 律 制度 ， 硬 件 的 产 
品 责任 标准 也 要 高 于 软件 的 产品 责任 标准 





软件 通常 按 “ 原 样 ” 销 售 ， 不 提供 保修 ， 而 硬 





2.21 门 和 芯片 的 最 简化 


我 们 已 经 掩盖 了 许多 基础 工程 细节 。 例 如 ， 一旦 工程 师 选 择 了 一 种 通用 设计 和 将 要 使 用 
的 复制 量 ， 他 们 要 寻求 方法 去 尽量 减少 所 需 的 硬件 数量 。 存 在 两 个 问题 : 最 简化 门 电路 和 最 
简化 集成 电路 。 第 一 个 问题 涉及 布尔 代数 的 一 般 规则 。 例 如 ， 考 虑 布尔 表达 式 : 

not (not z) 

实现 该 表达 式 的 电路 由 两 个 连接 在 一 起 的 反 相 器 组 成 。 当 然 ， 我 们 知道 两 个 “ 非 ”操作 是 恒 
等 函数 ， 所 以 表达 式 可 以 被 z 替换 。 也 就 是 说 ,一 对 直接 连接 的 反 相 器 可 以 从 电路 中 移 除 而 
不 影响 结果 。 

作为 布尔 表达 式 优化 的 另 一 个 例子 ， 考 虑 表达 式 : 

x nor (not x) 

要 么 x 的 值 为 1， 要 么 notx 的 值 为 1， 这 意味 着 或 非 (nor) 函数 将 始终 生成 相同 的 值 ， 即 罗 
辑 0。 因 此 ， 整 个 表达 式 可 由 值 0 替换。 就 一 个 电路 而 言 ， 使 用 或 非 ( nor) 门 和 反 相 器 来 计 
算 表达 式 是 思春 的 ， 因 为 由 两 个 门 产生 的 电路 将 始终 为 逻辑 0。 因 此 ,一旦 工程 师 写 出 了 布 
尔 表达 式 ， 可 以 通过 分 析 该 公式 以 查找 在 不 改变 结果 的 情况 下 可 减少 或 消除 的 子 表达 式 。 

幸运 的 是 ， 有 复杂 的 设计 工具 可 以 帮助 工程 师 最 大 限度 地 减少 逻辑 门 。 这 些 工具 以 布尔 
表达 式 作 为 输入 。 设 计 工具 分 析 表 达 式 ， 以 最 少数 量 的 门 实现 等 价 表 达 式 并 生成 对 应 的 电 
路 。 这些 工具 不 仅仅 使 用 布尔 与 、 或 、 非 。 相 反 ， 它 们 了 解 可 用 的 门 (例如 ， 与 非 )， 并 根 
据 可 用 的 电子 器 件 定 义 电 路 。 

虽然 布尔 公式 可 在 数学 上 进行 优化 ， 但 进一步 优化 是 必要 的 ， 因 为 总 体 目标 是 集成 电路 
的 最 简化 。 要 了 解 这 种 情况 ， 请 回想 一 下 ， 许 多 集成 电路 包含 给 定 类 型 门 的 多 个 副本 。 因 
此 ， 如 果 优 化 增加 了 所 需 的 逻辑 门 的 类 型 ， 则 最 简化 布尔 运算 的 数量 可 能 不 会 优化 电路 。 例 
如 ， 假 设 一 个 布尔 表达 式 需 要 四 个 与 非 门 ， 考 虑 一 种 优化 方法 ， 其 将 需求 降低 到 三 个 门 : 两 
个 与 非 门 和 一 个 或 非 门 。 不 幸 的 是 ， 虽 然 总 门 数 较 低 ， 但 优化 增加 了 所 需 集 成 电路 芯片 的 数 
量 ， 因 为 单个 7400 集成 电路 包含 四 个 与 非 门 ， 但 如 果 优 化 包括 与 非 门 和 或 非 门 ， 则 需要 两 
块 集成 电路 芯片 。 


2.22 使 用 闲置 门 


仔细 考虑 图 2.22 中 的 电路 。 假 设 时 钟 、 计 数 器 和 译 码 器 都 需要 一 块 集成 电路 芯片 ， 那 
么 需要 多 少 额 外 的 集成 电路 ? 显而易见 的 答案 是 两 个 : 一 个 是 与 非 门 〈 例 如 7400 )， 另 一 个 
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是 两 个 反 相 器 〈 例 如 7404 )。 令 人 惊讶 的 是 ， 仅 用 一 个 额外 的 集成 电路 即 可 实现 电路 。 为 了 
理解 如 何 实现 ， 请 注意 ， 虽 然 7400 包含 四 个 与 非 门 ， 但 只 需要 一 个 。 如 何 使 用 闲置 门 ? 诀 
窍 在 于 ，1 和 0 的 与 非 运算 是 1, 并且 1 和 1 的 与 非 运 算是 0。 也 就 是 说 : 

] nandx 
等 价 于 

notx 

要 使 用 与 非 门 作为 反 相 器 ， 工 程 师 只 需 将 两 个 输入 之 一 连接 到 逮 辑 1 ( 即 5 伏 )。 闲 置 的 

与 非 门 可 用 作 反 相 器 。 


2.23 配 电 和 散热 


除了 规划 数字 电路 以 正确 执行 预期 功能 并 最 大 限度 减少 所 用 元 件 的 数量 ， 工 程 师 还 必须 
应 对 基本 的 功率 和 冷却 要 求 (第 20 章 更 详细 地 考虑 电源 )。 例 如 ， 虽 然 本 章 的 图 表 仅 描述 了 
逻辑 门 的 输入 和 输出 ， 但 每 个 门 都 消耗 功率 。 单 个 集成 电路 使 用 的 功 耗 量 是 微不足道 的 。 但 
是 ， 由 于 硬件 设计 人 员 倾 向 于 使 用 复制 而 不 是 迭代 ， 所 以 复杂 的 数字 系统 包含 许多 电路 。 工 
程 师 必须 计算 所 需 的 总 功率 ,构建 适当 的 电源 供电 ， 并 规划 额外 的 布线 以 向 每 个 芯片 传输 
电能 。 

物理 定律 指出 任何 消耗 功率 的 设备 都 会 产生 热量 。 产 生 的 热量 与 消耗 的 功 耗 量 成 正比 ， 
因此 一 个 集成 电路 产生 的 热量 极 少 。 由 于 数字 系统 使 用 数 百 个 在 小 型 封闭 空间 内 运行 的 电 
路 ， 所 产生 的 总 热量 可 能 很 大 。 除 非 工 程 师 规划 散热 机 制 ， 否 则 高 温 会 导致 电路 失效 。 对 于 
小 型 系统 ， 工 程 师 在 机 箱 上 增加 了 一 些 孔 ， 人 允许 热 空气 移出， 并 被 周围 房间 的 较 冷 空气 所 蔡 
换 。 对 于 中 等 规模 系统 (如 个 人 电脑 )， 可 增加 风扇 ， 以 更 快速 地 使 周围 房间 的 空气 通过 系 
统 。 对 于 最 大 型 的 数字 系统 ， 冷 空气 并 不 够 一 一 必须 使 用 带 液体 冷却 剂 的 制冷 系统 (例如 ， 
Cray-2 超级 计算 机 中 的 电路 直接 浸入 液体 冷却 剂 中 )。 


2.24 时序 和 时 钟 域 


我 们 对 数字 逻辑 的 快速 浏览 省 略 了 工程 师 必 须 考虑 的 另 一 个 重要 方面 一 一 时 序 。 逻 辑 门 
不 会 立刻 执行 。 相 反 ， 门 需要 时 间 建 立 稳定 态 ( 即 ， 一 旦 输入 改变 就 改变 输出 ) 。 在 我 们 的 
例子 中 ， 时 序 是 无 关 紧 要 的 ， 因 为 时 钟 以 非常 低 的 1Hz 的 
频率 运行 ， 所 有 的 门 在 不 到 1 微 秒 的 时 间 内 建立 稳定 态 。 时 钟 
因此 ， 门 在 时 钟 脉 冲 远 未 到 来 之 前 就 建立 了 。 

在 实践 中 ， 时 序 是 工程 设计 的 一 个 基本 方面 ， 因 为 数 
字 电 路 按 高 速 运行 设计 。 为 确保 电路 正常 工作 ， 工 程 师 必 
须 计 算 所 有 门 电 路 (建立 稳定 态 ) 所 需要 的 时 间 。 

工程 师 还 必须 计算 在 整个 系统 中 传播 信号 所 需 的 时 间 ， 
并 且 必 须 确保 系统 不 因 时 钟 脉冲 相位 差 ( 也 称 为 时 钟 偏 移 ) 
而 失败 。 为 了 理解 时 钟 脉冲 相位 差 ， 请 考虑 图 2.23， 该 图 图 2.23 ”数字 系统 中 由 单个 时 钟 








展示 了 一 个 电路 板 ， 其 时 钟 控制 着 系统 中 的 三 个 集成 电路 。 控制 的 三 个 集成 电路 的 
图 2.23 是 三 个 集成 电路 的 物理 分 布 情况 (可 假定 其 他 示意 图 。 时 钟 和 集成 电 
集成 电路 占据 剩余 空间 )。 不 幸 的 是 ,信号 从 时 钟 到 达 每 个 路 之 间 的 导线 长 度 决 定 


电路 需要 一 定 的 时 间 ， 并且 所 需 时 间 与 时 钟 到 给 定 电路 之 了 时 钟 信号 何 时 到 达 
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间 的 导线 长 度 成 比例 。 结 果 ， 到 达 某 些 集成 电路 的 时 钟 信号 比 到 达 其 他 集成 电路 的 快 。 根 据 
经 验 ， 信 号 传播 通过 一 英尺 ?的 导线 需要 1 纳 秒 。 因 此 ， 对 于 一 个 十 八 英寸 宽 的 系统 ， 时 钟 
信号 到 达 时 钟 附近 位 置 比 到 达 最 远 位 置 快 近 1 纳 秒 。 显 然 ， 如 果 系 统 的 某 些 部 分 必须 在 其 他 
部 分 之 前 运行 ， 则 时 钟 偏 移 可 能 导致 问题 。 工 程 师 需要 计算 每 条 路 径 的 长 度 并 设计 一 个 避免 
时 钟 偏 移 问题 的 布局 。 

作为 时 钟 偏 移 的 后 果 ， 工 程 师 很 少 使 用 单个 全 局 时 钟 控制 系统 。 相 反 ， 会 使 用 多 个 时 
钟 ， 每 个 时 钟 控制 系统 的 一 部 分 。 通 常 ， 以 最 高 速率 运行 的 时 钟 应 用 在 最 小 的 物理 区 域 。 我 
们 使 用 术语 时 钟 域 来 指 代 给 定时 钟 控制 的 区 域 。 这 个 想法 并 不 局 限于 物理 上 的 大 型 系统 
集成 电路 (如 CPU) 已 经 变 得 如 此 庞大 和 复杂 ， 因 此 需要 在 芯片 上 使 用 多 个 时 钟 域 。 虽 然 使 
用 多 个 时 钟 域 避免 了 时 钟 偏 移 的 问题 ， 但 多 个 时 钟 引入 了 另 一 个 问题 ， 即 时 钟 同步 一 一 两 个 
时 钟 域 之 间 的 边界 处 的 数字 逻辑 必须 设计 为 适应 两 个 区 域 。 通 常 ， 这 种 调节 意味 着 电路 变 慢 
并 需要 多 个 时 钟 周期 来 移动 数据 。 


2.25 无 时 钟 逻辑 


随 着 局 片 尺寸 和 复杂 度 的 增加 ， 时 钟 偏 移 问题 和 系统 分 割 为 多 时 钟 域 问 题 变 得 越 来 越 重 
要 。 在 许多 系统 中 ， 时 钟 域 之 间 的 边界 形成 瓶颈 ， 因 为 边界 处 的 逻辑 电路 必须 等 待 多 个 时 钟 
周期 ， 才 能 将 一 个 时 钟 域 的 输出 转发 到 另 一 个 时 钟 域 。 时 钟 域 同步 的 问题 变 得 如 此 重要 ， 以 
至 于 研究 人 员 设 计 了 一 种 替代 方法 一 一 无 时 钟 逻 辑 。 本 质 上 ， 无 时 钟 系统 使 用 两 根 导线 而 不 
是 一 根 表示 布尔 值 。 两 根 导线 的 使 用 意味 着 输出 可 以 毫 不 含糊 地 指示 一 位 的 结束 ， 而 不 依赖 
于 时 钟 。 图 2.24 列 出 了 两 条 线 上 四 种 可 能 的 数值 组 合 及 其 含义 。 
线 1 ” 线 2 含义 


0 开始 一 个 新 位 之 前 重 置 
传输 一 个 位 0 











1 
0 传输 一 个 位 1 
1 未 定义 (不 使 用 ) 


图 2.24 ” 当 使 用 无 时 钟 逻 辑 将 位 从 一 个 芯片 传输 到 男 一 个 芯片 时 ， 信 号 在 两 条 线 上 的 含义 


这 个 想法 是 ， 发 送 者 在 每 一 个 位 之 间 将 两 条 线 都 设置 为 零 伏 以 重 置 接收 器 。 复 位 后 ， 发 
送 器 传送 一 个 逻辑 0 或 一 个 逻辑 1。 接 收 器 知道 一 个 位 何 时 到 达 ， 因 为 两 条 导线 中 只 有 一 条 
是 高 电 平 (例如 5 伏 )。 

为 什么 使 用 无 时 钟 逻辑 ? 除了 消除 时 钟 域 协调 问题 并 允许 芯片 之 间 更 高 速 的 数据 传输 
外 ， 无 时 钟 方法 消耗 的 功率 更 少 。 时 钟 电路 需要 连续 传播 时 钟 信号 ， 即 使 部 分 电路 处 于 非 活 
动 状态 。 无 时 钟 逻辑 可 以 避免 传播 时 钟 信号 的 开销 。 

无 时 钟 方法 可 在 实践 中 工作 吗 ? 是 的 。 通 过 设计 一 个 使 用 无 时 钟 逻 辑 的 完整 处 理 器 ， 
ARM 公司 已 经 证 明 该 方法 适用 于 大 型 复杂 电路 。 因 此 ， 无 时 钟 方法 具有 潜力 。 目 前 ， 大 多 
数 芯片 设计 者 仍然 使 用 钟 控 方 法 。 


2.26 电路 规模 和 摩尔 定律 


大 多 数 数字 电路 都 是 由 集成 电路 (IC) 构成 的 ， 这 种 技术 允许 将 许多 晶体 管 放 置 在 单个 
硅 芯 片上 ， 然 后 通过 布线 连接 它们 。 这 个 想法 是 利用 IC 上 的 元 件 形成 有 用 的 电路 。 


日 1 英寸 =0.3048 米 。 一 一 编辑 注 
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IC 通常 通过 使 用 互补 金属 氧化 物 半 导体 (CMOS ) 技术 来 创建 。 硅 挫 杂 杂质 ， 使 其 产生 
负电 离 或 正 电 离 。 所 得 到 的 物质 称 为 N 型 硅 或 P 型 硅 。 当 分 层 排列 时 ，N 型 和 了 型 硅 形成 
晶体 管 。 

IC 制造 商 一 般 不 会 单个 制造 IC。 相反 ， 制 造 商 会 创建 一 个 直径 在 十 二 到 十 八 英寸 之 间 
的 圆 形 晶 圆 ， 并 包含 给 定 IC 设计 的 多 个 副本 。 一 旦 晶 圆 制造 完成 ， 供 应 商 将 切割 出 单个 芯 
片 ， 并 将 每 个 芯片 与 连接 芯片 的 引 脚 一 起 封装 在 塑料 外 壳 中 。 

集成 电路 有 各 种 形状 和 尺寸 ; 有 些 只 有 8 个 外 部 连接 ( 即 引 脚 )， 而 另外 一 些 则 有 数 百 
个 引 脚 8。 一 些 IC 包含 数 十 个 晶体 管 ， 还 有 一 些 包含 数 百 万 个 晶体 管 。 

根据 芯片 上 晶体 管 的 数量 ，IC 可 分 为 图 2.25 所 列 的 四 大 类 。 


名 称 实例 
小 规模 集成 电路 ( SSI ) 基本 布尔 门 电路 





中 间 逻 辑 ， 如 计数 器 
小 型 嵌入 式 处 理 器 
超大 规模 集成 电路 (VLSI ) 复杂 处 理 器 


图 2.25 集成 电路 的 分 类 方案 


例如 ， 本 章 中 描述 的 集成 电路 芯片 7400、7402 和 7404 归 类 为 SSI。 二 进 制 计数 器 、 触 
发 器 或 多 路 分 配器 归 类 为 MSI。 

随 着 制造 商 不 断 设 计 新 方法 以 增加 每 平方 面积 上 晶体 管 的 密度 ，VLSI 的 定义 持续 变化 。 
英特尔 公司 的 共同 创始 人 戈 登 ， 摩尔 认为 ， 硅 电路 的 密度 (每 平方 英寸 的 晶体 管 数量 ) 每 年 
会 增加 一 倍 。 这 一 称 为 摩尔 定律 的 观察 结论 在 20 世纪 70 年 代 进 行 了 修订 ， 该 速度 减 慢 到 每 
18 个 月 翻 倍 。 

随 着 单个 芯片 上 晶体 管 数 量 的 增加 ， 供 应 商 利 用 这 种 能 力 去 增加 越 来 越 多 的 功能 。 一 些 
供应 商 通过 将 多 个 CPU ( 称 为 核 ) 的 副本 放置 在 单个 芯片 上 ， 然 后 在 核 之 间 提 供 互 连 来 创建 
多 核 CPU 芯片 。 其 他 供应 商 采 用 片上 系统 (SoC ) 方法 ， 其 中 单个 芯片 包含 处 理 器 、 存 储 器 
和 用 于 IO 设备 的 接口 ， 所 有 这 些 都 相互 连接 以 形成 完整 的 系统 。 最 后 ， 存 储 器 制造 商 已 经 
创建 了 具有 越 来 越 多 的 称 为 动态 内 存 (DRAM) 的 主 存储 器 的 芯片 。 

除了 由 供应 商 设计 和 销售 的 通用 IC 以 外 ， 构 建 专用 IC 已 成 为 可 能 。 被 称 为 专用 集成 电 
路 (ASIC) 的 IC 由 私人 公司 设计 ， 然 后 将 设计 发 送 给 制造 商 生产 。 尽 管 设计 ASIC 非常 昂 
贵 且 耗 时 一 一 大 约 两 百 万 美元 ， 耗 时 接近 两 年 一 一 但 一 旦 设计 完成 ，ASIC 的 副本 生产 成 本 
便宜 。 因 此 ， 对 于 那些 标准 芯片 不 能 满足 需求 且 生 产量 大 的 产品 ， 公 司 可 选择 ASIC 设计 。 


2.27 电路 板 和 层 


大 多 数 数字 系统 都 是 使 用 印刷 电路 板 ( PCB) 构建 的 ， 印 刷 电路 板 由 玻璃 纤维 板 和 附 在 
表面 上 的 薄 金属 条 以 及 用 于 安装 集成 电路 和 其 他 组 件 的 孔 组 成 。 本 质 上 ， 电 路 板 上 的 金属 条 
形成 互 连 组 件 的 布线 。 

电路 板 可 用 于 需要 电线 交叉 的 复杂 互 连 吗 ? 有趣 的 是 ， 工 程 师 已 经 开发 出 可 以 解决 这 个 
问题 的 多 层 电 路 板 。 实 际 上 ， 多 层 电路 板 允 许 三 维 布线 一 一 当 电 线 必 须 穿 过 另 一 个 电线 时 ， 
设计 人 员 可 以 将 电线 穿 过 上 层 ， 制 作 交叉 线 ， 然 后 再 将 电线 穿 回 。 看 起 来 有 几 层 就 可 以 满足 





日 工程 师 使 用 术语 引出 线 (pinout) 来 描述 芯片 上 每 个 引 脚 的 用 途 。 
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任何 电路 ， 但 是 ， 具 有 数 千 个 互 连 的 大 型 复杂 电路 可 能 还 需要 额外 的 层 。 工 程 师 设 计 出 十 八 
层 电路 板 并 不 罕见 ， 最 先进 的 电路 板 已 达到 二 十 四 层 。 


2.28 抽象 层次 


正如 本 章 所 说 明 的 那样 ， 可 以 在 各 种 抽象 层次 上 查看 数字 逻辑 。 在 最 底层 ， 晶 体 管 由 硅 
制 成 。 在 接 下 来 的 一 层 ， 多 个 晶体 管 与 元 件 一 起 使 用 ,例如 电阻 器 和 二 极 管 ， 以 形成 逻辑 
门 。 再 接 下 来 的 一 层 ， 多 个 逻辑 门 合并 形成 中 等 规模 的 单元 ， 如 触发 器 。 在 后 面 的 章节 中 ， 
我 们 将 讨论 更 复杂 的 机 制 ， 例 如 处 理 器 、 内 存 系统 和 IO 设备 ， 这 些 机 制 均 由 多 个 中 等 规模 
单元 构成 。 图 2.26 总 结 了 抽象 层次 。 

用 以 实现 的 条 目 
电路 板 


处 理 器 、 内 存 和 总 线 适 配器 芯片 
超大 规模 集成 电路 芯片 


处 理 器 

超大 规模 集成 电路 芯片 大 量 逻辑 门 

逻辑 门 大 量 晶 体 管 

晶 由 硅 实现 的 半导体 








图 2.26 ”数字 逻辑 的 抽象 层次 的 例子 。 一 个 层次 的 条 目 使 用 接 下 来 更 低层 次 的 条 目 实现 


重要 的 一 点 是 ， 提 高 抽象 级 别 可 以 让 我 们 隐藏 更 多 的 细节 ， 并 在 不 提供 内 部 细节 的 情况 
下 讨论 越 来 越 大 的 构建 块 。 例 如 ， 描 述 处 理 器 时 ， 我 们 可 以 考虑 处 理 器 的 工作 原理 ， 而 不 用 
检查 门 或 晶体 管 级 的 内 部 结构 。 

抽象 的 一 个 重要 结果 出 现在 示意 图 中 ,架构 师 和 工程 师 用 这 些 图 描述 数字 系统 。 正 如 我 
们 所 看 到 的 ， 示 意图 可 以 表示 晶体 管 、 电 阻 和 二 极 管 的 互 连 。 图 也 可 以 用 来 表示 逻辑 门 之 间 
的 互 连 。 在 后 面 的 章节 中 ， 我 们 将 使 用 更 高 层次 的 图 表示 处 理 器 和 内 存 系统 间 的 互 连 。 在 这 
样 的 图 中 ， 一 个 小 矩形 框 代表 一 个 处 理 器 或 一 个 存储 器 ， 而 不 显示 门 的 相互 连接 。 在 查看 架 
构图 时 ， 了 解 抽 象 级 别 以 及 记 住 高 级 图 中 的 单个 项 目 可 以 与 较 低级 别 抽象 中 的 任意 数量 的 项 
目 相对 应 将 很 重要 。 


2.29 小 结 


数字 逻辑 是 指 用 于 构建 数字 系统 (如 计算 机 ) 的 硬件 。 正 如 我 们 所 看 到 的 ， 布 尔 代数 是 
数字 电路 设计 中 的 一 个 重要 工具 一 一 布尔 代数 和 用 于 实现 组 合 数字 电路 的 门 电路 之 间 存 在 直 
接 关 系 。 布 尔 逻 辑 值 可 以 用 真 值 表 来 描述 。 

时 钟 是 一 种 定期 发 射 脉冲 的 机 制 ， 形 成 交替 的 1 和 0 信号 。 时 钟 允 许 数字 电路 的 输出 是 
时 间 和 其 逻辑 输入 的 函数 。 时 钟 也 可 以 用 于 在 电路 的 多 个 部 分 之 间 提 供 同步 。 

虽然 我 们 从 数学 角度 考虑 数字 逻辑 ， 但 构建 实用 电路 涉及 了 解 底层 硬件 细节 。 特 别 是 ， 
除了 基本 的 正确 性 之 外 ， 工 程 师 还 必须 应 对 配 电 、 散 热 和 时 钟 偏 移 等 问题 。 


习题 

2.1 通过 网 络 查找 出 一 个 超大 规模 集成 电路 (VLSI) 芯片 上 晶体 管 的 数量 和 该 芯片 的 物理 尺寸 。 如 果 
使 用 整个 晶 圆 ， 单 个 晶体 管 的 尺寸 有 多 大 ? 

2.2 智能 手机 和 其 他 电池 供电 设备 中 使 用 的 数字 罗 辑 电路 不 能 以 5 伏 运 行 。 查 看 智能 手机 中 的 电池 或 
搜索 网 站 ， 找 出 其 使 用 的 电压 。 
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设计 一 个 使 用 与 非 门 、 或 非 门 和 反 相 器 的 电路 来 提供 异 或 功能 。 

在 图 2.12 中 为 全 加 器 电路 写 出 真 值 表 。 

在 网 络 上 阅读 关于 触发 器 的 资料 ， 列 出 主要 类 型 及 其 特征 。 

用 与 非 门 、 或 非 门 和 反 相 器 构建 一 个 译 码 器 的 电路 。 

看 看 维基 百科 等 网 络 资源 ， 回 答 以 下 问题 : 当 芯片 制造 商 声 称 使 用 七 纳米 芯片 技术 时 ， 制 造 商 想 
表达 什么 ? 

如 果 一 个 计数 器 芯片 有 16 个 引 脚 ， 那 么 计数 器 芯片 的 最 大 输出 值 是 多 少 ? (提示 : 芯片 需要 电源 
和 接地 连接 。) 

如 果 解 码 器 芯片 有 五 个 输入 引 脚 (不 包括 电源 和 地 线 )， 它 将 有 多 少 个 输出 引 脚 ? 

设计 一 个 需要 三 个 输入 4、B 和 C 并 产生 三 个 输出 的 电路 。 除 非 你 仅 使 用 两 个 反 相 器 ， 否 则 该 
电路 是 比较 平常 的 。 你 可 以 使 用 任意 其 他 芯片 (例如 ， 与 非 门 、 或 非 门 和 异 或 门 )。 

假设 电路 中 有 一 个 空闲 的 或 非 门 ， 通 过 将 其 中 一 个 输入 连接 到 逻辑 1 可 以 创建 出 何 种 有 用 的 功 
能 ?连接 到 逻辑 零 呢 ?请 说 明 。 

阅读 无 时 钟 逻 辑 ， 它 可 以 用 于 哪些 设计 场景 ? 
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3.1 引言 

前 一 章 介绍 了 数字 逻辑 ， 并 介绍 了 用 于 创建 数字 系统 的 基本 硬件 构建 块 。 本 章 继续 讨论 
基本 原理 ， 解 释 数 字 系统 如 何 使 用 二 进 制 表示 来 编码 程序 和 数据 。 我 们 将 看 到 ， 对 于 程序 员 
和 硬件 工程 师 来 说 ，( 数 据 和 程序 的 ) 表示 是 非常 重要 的 ， 因 为 软件 必须 了 解 底层 硬件 使 用 
的 格式 ， 并 且 格 式 会 影响 硬件 执行 操作 (例如 加 法 ) 的 速度 。 


3.2 ”数字 逻辑 与 抽象 的 重要 性 

正如 我 们 所 看 到 的 ， 数 字 人 逻辑 电路 包含 许多 低级 细节 。 这 些 电 路 使 用 晶体 管 和 电压 执行 
基本 操作 。 然 而 ， 数 字 逻 辑 的 主要 观点 是 抽象 一 一 我 们 希望 隐藏 底层 细节 并 尽 可 能 使 用 高 级 
抽象 。 例 如 ， 我 们 已 经 看 到 ，7400 系列 数字 逻辑 芯片 的 每 个 输入 或 输出 限制 在 两 种 可 能 的 
情况 : 0 伏 或 5 伏 。 但 是 ， 当 计算 机 架构 师 使 用 逻辑 门 设计 计算 机 时 ， 他 们 不 会 考虑 这 些 细 
节 。 相 反 ， 他们 使 用 布尔 代数 的 逻辑 0 和 逻辑 1 的 抽象 名 称 。 抽 象 意味 着 复杂 的 数字 系统 ， 
如 存储 器 和 处 理 器 ， 可 以 在 不 考虑 单个 晶体 管 或 电压 的 情况 下 进行 描述 。 更 重要 的 是 ， 抽 象 
意味 着 电池 供电 设备 (如 智能 手机 ) 可 以 使 用 较 低 的 电压 来 降低 功 耗 。 

对 程序 员 来 说 ， 最 重要 的 抽象 是 那些 软件 可 见 的 条 目 : 数据 和 程序 的 表示 。 接 下 来 会 考 
虑 数据 表示 ， 并 讨论 它 对 程序 的 可 见 性 。 后 面 的 部 分 将 介绍 指令 如 何 表示 。 


3.3 ”位 和 字 节 的 定义 

所 有 的 数据 表示 形式 都 是 基于 数字 逻辑 的 。 我 们 使 用 抽象 的 二 进 制 位 (比特 ) 来 描述 一 
个 有 两 种 可 能 取 值 的 数字 实体 ， 并 且 给 这 两 种 取 值 赋予 0 和 1 的 数学 名 称 。 

多 个 位 可 以 用 来 表示 更 复杂 的 数据 项 。 比 如 说 ， 每 个 计算 机 系统 都 是 定义 一 个 字 节 来 作 
为 超过 一 位 的 、 硬 件 所 能 操纵 的 最 小 数据 项 。 

一 个 字 节 有 多 大 呢 ? 一 个 字 节 的 大 小 在 所 有 的 计算 机 系统 上 并 不 是 统一 的 ， 而 是 由 设计 
计算 机 的 架构 师 选 择 的 。 早 期 计算 机 的 设计 者 试验 了 多 种 字 节 大 小 ， 而 且 一 些 特殊 用 途 的 计 
算 机 仍 在 使 用 不 寻常 的 字 节 大 小 。 比 如 说 ,一 台 由 CDC 公司 生产 的 早期 计算 机 使 用 6 位 的 
字 节 ， 而 由 BB&N 生产 的 一 台 计 算 机 使 用 10 位 的 字 节 。 但 是 ， 最 现代 的 计算 机 系统 定义 一 
个 字 节 为 8 位 一 一 这 个 大 小 已 经 被 广泛 接受 ， 以 至 于 工程 师 通常 都 假定 一 个 字 节 大 小 等 于 8 
位 ， 除 非 男 有 说 明 。 重 点 是 : 


管 有 些 计算 
和 









3.4 字 节 大 小 和 可 能 的 值 
单个 字 节 的 位 数 对 于 程序 员 来 说 至 关 重要 ， 因 为 内 存 是 按 字 节 序 组 织 的 。 字 节 的 大 小 决 
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定 了 存储 在 一 个 字 节 的 最 大 数值 。 一 个 包含 x 位 的 字 节 能 表示 2 个 值 中 的 一 个 。( 即 长 度 为 
kk 时 ,恰好 存在 2 个 唯一 的 01 串 。) 因此 , 一 个 6 位 的 字 节 可 以 表示 64 个 可 能 的 取 值 ， 而 
一 个 8 位 的 字 节 可 以 表示 256 个 可 能 的 取 值 。 例 如 ， 考 虑 3 位， 可 以 构成 8 种 可 能 的 组 合 。 
图 3.1 阐明 了 这 些 组 合 。 


图 3.1 8 个 唯一 的 组 合 可 以 分 配给 3 位 表示 


一 个 给 定 的 位 串 表 示 的 是 什么 ”要 理解 的 最 重要 的 事情 是 ， 位 本 身 并 没有 固定 的 意 
义 一 一 值 的 解释 是 由 使 用 位 的 硬件 和 软件 来 决定 的 。 比 如 ， 一 个 位 串 可 以 表示 一 个 英文 字 
符 、 一 串 字 符 、 一 个 整数 、 一 个 浮 点 数 、 一 段 音频 〈 即 一 首 歌 )、 一 段 视频 或 一 个 计算 机 
程序 。 

除了 一 个 计算 机 程序 员 理解 的 东西 之 外 ， 计 算 机 硬件 设计 还 可 以 用 一 组 位 表示 3 个 外 围 
设备 状态 。 

e 如 果 连 接 了 键盘 ， 则 第 一 位 的 值 为 1。 

。 如 果 连 接 了 摄像 机 ， 则 第 二 位 的 值 为 1。 

。 如 果 打 印 机 已 连接 ， 则 第 三 位 的 值 为 1。 

另外， 硬件 还 能 被 设计 成 用 一 组 三 位 值 表示 3 个 按钮 的 当前 状态 : 第 i 位 为 1 表示 用 户 
当前 正在 按 开关 i。 重 点 是 : 


位 没有 固定 的 意义 一 一 所 有 的 意义 都 取决 于 位 被 解释 的 方式 。 


he 


3.5 二进制 位 权 表 示 法 


一 个 用 来 赋予 每 个 位 串 以 意义 的 最 常用 的 抽象 是 把 它们 的 组 合 解释 为 一 个 数值 。 例 如 ， 
整数 解释 源 自 数学 : 位 是 使 用 基数 2 的 位 权 数 字 系统 中 的 值 。 要 理解 这 种 解释 ， 记 住 在 基数 
为 10 的 时 候 ， 可 能 的 数字 为 0、1、2、3、4、5、6、7、8 和 9， 每 个 位 置 代表 10 的 一 个 宕 ， 
而 数字 123 代表 1 乘 以 10 加 上 2 乘 以 10 加 上 3 乘 以 10"。 在 二 进 制 系统 中 ， 可 能 的 取 值 
为 0 和 1， 而 每 个 位 位 置 代表 2 的 一 个 备 。 也 就 是 说 ， 这 些 位 置 代表 连续 的 2 的 寡 : 2 ”、2'、 
2 等。 图 3.2 说 明了 二 进 制 数 的 位 权 概 念 。 


25=32 24=16 
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== 二 = 一 全 = 下 = 下 一目 =- 一 ~ 
图 3.2” 当 使 用 基数 为 2 的 位 权 解释 时 ， 右 起 前 6 个 位 位 置 对 应 的 数值 
例如 ， 考 虑 下 面 的 二 进 制 数 : 





010101 
根据 图 3.2， 数 值 可 以 解释 为 : 

010101=0x25+1X24H0Xx23+1X22+0Xx2+1X20=-21 
我 们 将 在 本 章 后 面 讨论 关于 特定 形式 的 整数 表示 法 (包括 负数 ) 的 更 多 内 容 。 目 前 为 止 ， 


务 了 章 发 据 和 程 育 的 表示 。 27 


已 经 足以 发 现 一 个 传统 位 权 记 法 的 重要 结果 : 用 位 表示 的 二 进 制 数 从 0 开始 ， 而 不 是 从 1 
开始 。 如 果 我 们 用 图 3.2 说 明 的 位 权 解 释 ， 用 3 位 表示 的 二 进 制 数 范围 是 从 0 到 7。 相似 地 ， 
用 8 位 表示 的 二 进 制 数 范围 是 从 0 到 255。 我 们 可 以 总 结 如 下 : 





由 于 这 是 设计 软件 和 硬件 的 基本 技能 ， 所 有 在 这 些 领 域 工 作 的 人 都 应 该 知道 这 些 基 础 知 
识 。 图 3.3 列 出 了 硬件 设计 师 和 软件 设计 师 都 应 该 知道 的 二 进 制 数字 的 十 进 制 对 应 值 。 这 个 
表格 包括 了 2” 和 2“ (十 分 大 的 数字 ) 的 条 目 。 尽 管 应 该 记 住 这 个 表格 里 面 的 较 小 数值 ， 但 
是 硬件 设计 师 和 软件 设计 师 只 需要 了 解 较 大 数 的 数量 级 。 幸 运 的 是 ， 容 易 记 住 2” 包含 10 个 
十 进 制 位 ，2” 包含 20 个 十 进 制 位 。 
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图 3.3 常用 2 的 寡 的 十 进 制 值 


3.6 ”位 序 


图 3.2 中 的 位 权 记 法 看 起 来 十 分 明显 。 毕 竟 ， 写 十 进 制 数 的 时 候 ， 我 们 总 是 把 最 低 有 效 
位 写 到 右边 ， 最 高 有 效 位 写 到 左边 。 因 此 ， 当 写 二 进 制 数 的 时 候 ， 把 最 低 有 效 位 (LSB) 写 
到 右边 、 最 高 有 效 位 ( MSB) 写 到 左边 是 有 道理 的 。 但 是 ， 当 数字 逻辑 用 于 存储 一 个 整数 的 
时 候 ,“ 右 边 ” 和 “左边 ”的 概念 不 再 有 意义 。 所 以 ， 计 算 机 架 梅 师 必 须 声明 位 是 如 何 存储 
的 ， 哪 些 是 最 低 有 效 位 ， 哪 些 是 最 高 有 效 位 。 

在 位 从 一 个 地 方 传送 到 另 一 个 地 方 的 时 候 ， 位 序 的 概念 尤为 重要 。 比 如 ， 当 一 个 数值 在 
寄存 器 和 内 存 之 间 移 动 的 时 候 ， 位 序 必 须 保留 。 相 似 地 ， 当 在 网 络 上 发 送 数据 的 时 候 ， 发 送 
方 和 接收 方 必须 在 位 序 上 保持 一 致 。 也 就 是 说 ， 这 两 个 终端 必须 在 “是 LSB 还 是 MSB 先 发 
送 ” 这 一 问题 上 保持 一 致 。 
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3.7 十 六 进 制 记 法 


尽管 一 个 二 进 制 数 可 以 转换 成 等 价 的 十 进 制 数 ， 但 是 程序 员 和 工程 师 有 时 会 发 现 等 价 的 
十 进 制 数 很 难 理解 。 比 如 ， 如 果 一 个 程序 员 需 要 测试 右 起 第 五 位 ， 相 比 使 用 等 价 的 十 进 制 数 
16， 使 用 二 进 制 常数 010000 使 得 常数 和 位 的 对 应 关系 更 为 清晰 。 

不 幸 的 是 ， 长 位 串 和 等 价 十 进 制 数 一 样 策 重 和 难以 理解 。 例 如 ， 为 了 分 辩 第 16 位 在 下 
面 的 二 进 制 数 中 是 否 被 置 位 ， 需 要 一 个 位 一 个 位 地 去 数 。 


11011110110010010000100101001001 


为 了 辅助 人 类 表达 二 进 制 数 值 ， 我 们 采取 了 一 种 折 中 方案 : 采用 基数 更 大 的 位 权 数字 
系统 。 如 果 选 择 的 基数 是 2 的 究 ， 那 么 转换 到 二 进 制 就 很 容易 了 。 曾 经 用 过 八进制 (基数 为 
8 )， 但 十 六 进 制 (基数 为 16 ) 已 经 变 得 更 为 流行 。 

十 六 进 制 表示 法 有 两 个 好 处 。 第 一 ， 由 于 表示 形式 比 二 进 制 更 加 紧凑 ， 导 致 位 串 更 短 。 
第 二 ,由 于 16 是 2 的 罕 ， 二 进 制 和 十 六 进 制 之 间 的 转换 是 直接 的 ， 并 且 不 会 涉及 复杂 的 算 
术 计 算 〈 即 人 工 可 以 简单 快速 地 完成 转换 ， 而 不 需要 借助 计算 器 或 其 他 工具 )。 

本 质 上 ， 十 六 进 制 把 一 组 4 个 二 进 制 位 编码 为 单个 介 于 0 到 15 的 十 六 进 制 数字 (程序 
员 使 用 术语 hex 作为 十 六 进 制 的 缩写 ) 。 图 3.4 列 出 了 16 个 十 六 进 制 位 ， 连 同等 价 的 二 进 制 
数 和 十 进 制 数 。 此 图 和 下 面 的 例子 都 使 用 大 写字 母 A 到 F 来 表示 大 于 9 的 十 六 进 制 位 。 一 
些 程序 员 和 一 些 编程 语言 使 用 小 写字 母 a 到 f 来 代替 ， 这 种 不 同 并 不 重要 ， 而 程序 员 应 当 准 
备 好 使 用 其 中 一 种 方式 。 


十 六 进 制 数字 等 价 的 二 进 制 数 等 价 的 十 进 制 数 
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图 3.4 16 个 十 六 进 制 数 字 及 其 等 价 的 二 进 制 数 、 十 进 制 数 。 每 个 十 六 进 制 位 编码 了 4 个 二 进 
制 位 


作为 一 个 十 六 进 制 编码 的 例子 ， 图 3.5 说 明了 一 个 二 进 制 串 是 如 何 对 应 于 它 的 等 价 十 六 
进 制 串 的 。 
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图 3.5 二 进 制 和 十 六 进 制 之 间 的 关系 说 明 。 每 个 十 六 进 制 数 字 由 4 个 二 进 制 位 表示 
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3.8 十 六 进 制 和 二 进 制 常数 记 法 
因为 在 二 进 制 、 十 进 制 、 十 六 进 制 数字 系统 中 的 数字 是 重 倒 的， 所 以 常数 可 能 会 有 二 义 
性 。 为 了 解决 这 种 二 义 性 ， 需 要 一 种 替代 的 记 法 。 数 学 家 和 一 些 教科 书 会 在 基数 不 为 10 的 
数字 末尾 添加 一 个 下 标 ( 即 13$,s 表明 这 一 常数 是 十 六 进 制 的 ) 。 计 算 机 架构 师 和 程序 员 倾 向 
于 遵循 编程 语言 的 记 法 : 十 六 进 制 常数 以 前 缀 0x 开头 ， 而 二 进 制 常数 以 前 缀 0b 开头 。 因 
此 ， 为 了 表示 13$,。， 程 序 员 会 写作 0x135。 类 似 地 ， 图 3.5 中 的 32 位 常数 写作 : 
0xDEC90949 


3.9 字符 集 


我 们 说 位 没有 固定 的 意义 ， 而 且 硬 件 或 软件 必须 决定 每 个 位 代表 什么 。 更 重要 的 是 ， 可 
以 使 用 超过 一 种 的 解释 方式 一 一 一 组 位 可 以 基于 一 种 解释 创建 和 使 用 ， 之 后 又 可 以 被 男 一 种 
解释 方式 使 用 。 

例如 ， 考 虑 具有 数值 和 符号 解释 的 字符 数据 。 每 个 计算 机 系统 都 定义 了 一 套 字 符 集 9 ， 
作为 计算 机 和 IO 设备 一 致使 用 的 一 套 符号 。 一 套 典 型 的 字符 集 包 含 大 写 和 小 写字 母 、 数 字 
和 标点 符号 。 更 重要 的 是 ， 计 算 机 架构 师 经 常 选择 每 个 字符 对 应 一 个 字 节 的 字符 集 ( 即 该 字 
符 集中 ， 一 个 字 节 的 每 一 个 位 组 合 模 式 都 对 应 分 配 一 个 字符 )。 因 此 ， 一 台 使 用 8 位 字 节 的 
计算 机 在 其 字符 集中 有 256( 2” ) 个 字符 ， 而 一 台 使 用 6 位 字 节 的 计算 机 在 其 字符 集中 有 64 
( 2”) 个 字符 。 实 际 上 ， 字 节 大 小 和 字符 集 的 关系 非常 紧密 ， 所 以 许多 编程 语言 都 把 一 个 字 
节 当 作 一 个 字符 。 

计算 机 架构 师 必须 决定 用 来 编码 每 个 字符 的 位 值 是 什么 。 例 如 ， 在 20 世纪 60 年 代 ， 
IBM 公司 选择 扩展 的 二 进 制 编码 的 十 进 制 交换 码 (EBCDIC) 表示 法 作为 IBM 计算 机 使 用 的 
字符 集 。CDC 公司 选择 一 套 6 位 字符 集 作 为 其 计算 机 使 用 的 字符 集 。 这 两 种 字符 集 是 完全 
不 兼容 的 。 

实际 上 ,计算 机 系统 会 连接 到 诸如 键盘 、 打 印 机 或 调制 解 调 器 之 类 的 设备 ， 而 这 些 设 
备 通 常 由 不 同 的 公司 制造 。 要 正确 地 进行 互 操 作 ， 外 围 设 备 和 计算 机 系统 必须 就 哪 一 个 位 
模式 对 应 于 给 定 的 符号 字符 达成 一 致 。 为 帮助 供应 商 制 造 兼容 的 设备 ， 美 国 国 家 标准 学 会 
(ANSI) 定义 了 一 种 称 为 美国 标准 信息 交换 码 (ASCII) 的 字符 表示 。ASCII 字符 集 指 定 了 
128 个 字符 的 表示 ， 包 括 通常 的 字母 、 数 字 和 标点 符号 。 在 8 位 字 节 中 ， 额 外 的 值 可 以 用 来 
分 配给 特殊 符号 。 这 一 标准 被 广泛 接受 。 

图 3.6 列 出 了 字符 的 ASCII 表示 ， 给 出 了 十 六 进 制 值 及 对 应 的 字符 。 当 然 ， 十 六 进 制 符 
号 只 是 二 进 制 位 串 的 简写 符号 。 例 如 ， 小 写字 母 a 具有 十 六 进 制 值 0x61， 其 对 应 于 二 进 制 
值 0b01100001。 

我 们 说 传统 的 计算 机 使 用 8 位 字 节 ， 而 ASCII 码 定义 了 128 个 字符 ( 即 一 个 7 位 字符 
集 )。 因 此 ， 在 常规 计算 机 上 使 用 ASCII 时 ,一 半 的 字 节 值 (十 进 制 值 为 128 到 255 ) 是 未 
分 配 的 。 额 外 的 值 是 如 何 使 用 的 ? 在 某 些 情况 下 ， 它 们 没 被 使 用 一 一 接受 或 传送 字符 的 外 
围 设 备 只 是 忽略 字 节 中 的 第 八 位 。 在 其 他 情况 下 ， 计 算 机 架构 师 或 程序 员 会 扩展 字符 集 ( 例 
如 ， 通 过 添加 替代 语言 的 标点 符号 )。 


日 字符 集 的 名 称 是 用 来 发 音 的 ， 而 不 是 逐 字 母 读 出 。 比 如 说 ，EBCDIC 的 发 音 是 ebb’sedick， 而 ASCII 的 发 音 
是 ass’key。 


一 一 号 一 一 请 口 和 人 pp- 
一 cc3o 一 cmiiwml 愉 ? 


! 

) 

1 

9 
A 
1 
Q 
Y 
a 
i 

q 
y 


N= TN 人 D0. 
~ Om 天 OO-: 
Va"' 





图 3.6 ASCII 字符 集 。 每 个 条 目 显示 一 个 十 六 进 制 值 和 可 打印 字符 的 图 形 表示 以 及 其 他 字符 的 含义 


3.10 Unicode 


虽然 7 位 字符 集 和 8 位 字 节 适用 于 英语 和 一 些 欧洲 语言 ， 但 它们 不 足以 适用 于 所 有 语 
言 。 例 如 ， 中 文 包 含 数 以 千 计 的 符号 和 字形 。 为 了 适应 各 种 语言 ， 已 经 提出 了 扩展 和 替代 
方案 。 

被 广泛 接受 的 扩展 字符 集 之 一 命名 为 Unicode。Unicode 扩展 了 ASCII， 旨 在 容纳 所 有 
语言 ， 包 括 来 自 远东 的 语言 。 最 初 设计 为 16 位 字符 集 ， 更 高 版 本 的 Unicode 已 被 扩展 以 适 
应 更 大 的 表示 范围 。 因 此 ， 未 来 的 计算 机 和 IO 设备 可 能 会 将 其 字符 集 设置 为 Unicode。 


3.11 无 符号 整数 、 溢 出 和 下 省 


图 3.2 所 示 的 二 进 制 数 的 位 权 表示 法 被 认为 表达 了 无 符号 整数 。 也 就 是 说 ，2 位 的 每 个 
组 合 都 与 一 个 非 负数 值 相关 联 。 由 于 计算 机 中 使 用 的 无 符号 整数 具有 有 限 的 大 小 ， 因 此 加 法 
和 减法 等 操作 可 能 会 有 不 可 预知 的 结果 。 例 如 ， 从 较 小 的 正 的 大 位 无 符号 整数 中 减 去 一 个 正 
的 大 位 无 符号 整数 可 以 得 到 一 个 负数 ( 即 有 符号 ) 的 结 
果 。 类 似 地 ， 将 两 个 上 位 无 符号 整数 相 加 可 以 产生 一 个 


100 

需要 多 于 大 位 表示 的 值 。 + 110 
执行 无 符号 二 进 制 运算 的 硬件 用 有 趣 的 方式 处 理 这 Ly 

个 问题 。 首 先 ， 硬 件 使 用 绕 回 〈 即 硬件 将 两 个 上 位 整数 人 


相 加 ， 取 结果 的 个 低位 ) 产生 结果 。 其 次 ， 硬 件 设置 
溢出 或 下 溢 条 件 来 指示 结果 是 否 超过 上 位 或 者 是 负 的 9。 。 图 37 无 符号 整数 加 法 产生 溢出 的 
例如 ， 溢 出 指示 符 对 应 于 将 出 现在 第 kt+1 位 〈 即 通常 称 人 
为 进位 的 值 ) 中 的 值 。 图 3.7 举例 说 明了 一 个 导致 进位 iio 


晶 “下 溢 ” 一 词 表示 一 个 小 于 表示 形式 可 容纳 的 值 。 无 符号 整数 算术 的 负数 结果 被 归 类 为 下 滋 ， 因 为 不 能 表示 
负 值 。 
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的 三 位 运算 。 


3.12 ”给 位 和 字 节 编号 

一 组 位 应 该 如 何 编 号 ”如 果 我 们 把 这 个 集合 看 作 一 个 字符 串 ， 从 左边 开始 编号 是 有 意义 
的 , 但 是 如 果 我 们 把 这 个 集合 看 作 一 个 二 进 制 数 ， 那 么 从 右边 开始 编号 是 有 意义 的 (也 就 是 
从 最 低位 起 )。 当 通过 网 络 传输 数据 时 ， 编 号 是 特别 重要 的 ， 因 为 发 送 和 接收 计算 机 必须 在 
首先 传送 最 低位 还 是 最 高 位 上 达成 一 致 。 

如 果 考 虑 跨 多 个 字 节 的 数据 项 ， 编 号 的 问题 将 会 变 得 更 加 复杂 。 例 如 ， 考 虑 一 个 由 32 
位 组 成 的 整数 。 如 果 计 算 机 使 用 8 位 字 节 ， 整 数 将 跨越 4 个 字 节 ， 可 以 从 最 低位 字 节 或 最 高 
位 字 节 开始 传送 。 

我 们 使 用 术语 “小 端 序 ” 描 述 一 个 系统 ， 该 系统 从 最 低位 字 节 到 最 高 位 字 节 存储 和 传输 
一 个 整数 的 所 有 字 节 ， 而 术语 “大 端 序 ” 则 表示 从 最 高 位 字 节 到 最 低位 字 节 存储 和 传输 一 个 
整数 的 所 有 字 节 的 系统 。 类 似 地 ， 我 们 使 用 “位 小 端 ” 和 “位 大 端 ” 的 术语 来 分 别 表征 从 最 
低 有 效 位 和 最 高 有 效 位 开始 传送 一 个 字 节 内 的 所 有 位 的 系统 。 可 以 将 一 个 整数 的 字 节 看 作 是 
存储 在 一 个 数组 中 ， 而 字 节 序 决定 了 它 在 内 存 中 的 方向 。 图 3.8 使 用 一 个 整数 例子 来 说 明 两 
个 字 节 顺序 ， 用 小 端 序 和 大 端 序 展示 位 权 表 示 和 内 存 中 字 节 的 排列 。 


00011101 10100010 00111011 01100111 
a ) 整数 497 171 303 的 二 进 制 位 权 表示 


loc. i+1 loc. i+2 loc. i+3 


) 用 小 端 序 存储 的 整数 


loc.i loc. i+1 loc. i+2 loc. i+3 


oo T010000 To01mor T ono ] 
c ) 用 大 端 序 存 储 的 整数 
图 3.8 a) 整数 497 171 303 以 32 位 二 进 制 数 形式 表示 ， 其 中 空格 用 来 标记 每 8 位 一 组 ; b) 用 
小 端 序 在 连续 内 存 空 间 中 存储 的 整数 ; c) 用 大 端 序 在 连续 内 存 空间 中 存储 的 整数 


大 端 表示 可 能 看 起 来 很 吸引 人 ， 因 为 它 模仿 人 们 写 数 字 的 顺序 。 令 人 惊讶 的 是 ， 小 端 序 
对 于 计算 有 几 个 优点 。 例 如 ， 小 端 序 允许 程序 员 使 用 单个 内 存 地址 来 引用 一 个 整数 的 所 有 4 
个 字 节 、2 个 低位 字 节 或 者 只 是 最 低位 的 字 节 。 


3.13 ”有 符号 二 进 制 整数 


3.5 节 中 描述 的 位 权 表示 没有 规定 负数 。 为 了 引入 负数 ， 我 们 需要 一 个 替代 方案 。 可 以 
使 用 三 种 解释 方式 : 
e 原 码 。 在 原 码 表示 法 中 ， 将 一 个 整数 的 位 分 成 一 个 符号 位 (如果 这 个 数 是 负数 ， 那 么 
为 1， 和 否则 为 0) 和 给 出 整数 的 绝对 值 ( 即 数值 ) 的 一 组 位 。 数 值 域 遵 循 图 3.2 所 示 
的 位 权 表示 。 
e 反 码 。 所 有 位 作为 单个 域 。 正 整数 使 用 如 图 3.2 所 示 的 位 权 表 示 ， 对 于 个 位 的 整 
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数 ， 其 最 大 正 值 为 2 。 为 了 表示 任意 负 值 ， 将 每 一 位 反 转 ( 即 从 0 变 为 1， 反之 亦 
然 )。 最 高 位 表示 整数 的 符号 (1 表示 负 整 数 ，0 表示 非 负 整数 )。 

e 补 码 。 所 有 位 当 作 单个 域 。 正 整数 使 用 如 图 3.2 所 示 的 位 权 表示 ， 对 于 大 个 位 的 整 
数 ， 其 最 大 正 值 为 2”'-1。 因 此 ， 正 整数 具有 与 反 码 相同 的 表示 。 为 了 形成 负数 ， 从 
正 数 开始 ， 减 1， 然 后 反 转 每 一 位 。 与 反 码 一 样 ， 最 高 位 表示 整数 的 符号 ( 1 表示 负 
整数 ，0 表示 非 负 整数 )。 

每 种 表示 都 有 有 趣 的 特性 。 例 如 ， 原 码 表示 可 以 创建 一 个 负 的 零 值 ， 即 使 这 个 概念 不 能 
对 应 一 个 有 效 的 数学 概念 。 反 码 的 解释 提供 了 两 个 零 值 : 所 有 位 全 0 和 它 的 补 码 (所 有 位 全 
1 )。 最 后 ， 补 码 表示 中 正 值 比 负 值 多 一 个 (为 了 容纳 零 )。 

哪 种 表示 最 好 ? 程序 员 可 以 辩论 这 个 问题 ， 因 为 在 某 些 情况 下 每 种 解释 都 可 以 很 好 地 工 
作 。 但 是 ,程序 员 不 能 选择 ， 因 为 应 由 计算 机 架构 师 做 出 决定 并 相应 地 构建 硬件 。 三 种 表示 
法 都 至 少 被 一 台 计算 机 使 用 过 。 许 多 硬件 架构 使 用 补 码 方案 ， 这 有 两 个 原因 。 首 先 ， 补 码 使 
得 构建 低 成 本 、 高 速度 的 硬件 来 执行 算术 运算 成 为 可 能 。 其 次 ， 如 下 一 节 所 述 ， 二 进 制 补 码 
算法 的 硬件 也 可 以 处 理 无 符号 的 算术 。 


3.14 ”一 个 补 码 数字 的 例子 


我 们 说 大 位 可 以 代表 关 个 可 能 的 组 合 。 无 符号 表示 的 位 组 合 对 应 从 零 开 始 的 连续 整数 
集合 ， 补 码 则 将 这 种 位 组 合 对 半分 开 。 前 半 部 分 (0 到 2 邱 -1 ) 中 的 每 个 组 合 都 分 配 了 与 无 
符号 表示 中 相同 的 值 。 后 半 部 分 的 组 合 〈 每 一 个 的 最 高 位 等 于 1 ) 对 应 于 负 整 数 。 因 此 ,在 
可 能 的 组 合 的 正好 一 半 处 ， 值 从 最 大 可 能 的 正 整数 变化 到 具有 最 大 绝对 值 的 负 整数 。 

我 们 使 用 一 个 例子 来 阐明 补 码 的 分 配 。 为 了 简化 例子 ,我 们 将 考虑 一 个 4 位 的 整数 。 图 
3.9 列 出 了 无 符号 数 、 原 码 、 反 码 和 补 码 的 16 种 可 能 的 组 合 ， 以 及 等 价 的 十 进 制 数 。 


二 进 制 串 无 符号 位 权 解 释 ” 原 码 解释 反 码 解释 补 码 解释 
0000 
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图 3.9 4 位 组 合用 无 符号 、 原 码 、 反 码 和 补 码 解释 时 对 应 的 十 进 制 值 


如 上 所 述 ， 无 符号 和 补 码 的 优点 除了 溢出 之 外 ， 相 同 的 硬件 操作 对 于 两 种 表示 都 是 有 效 
的 。 例 如 ， 二 进 制 值 1001 加 1 会 产生 1010。 在 无 符号 解释 中 ，1 加 9 产生 10 ; 在 补 码 解释 
中 , 给 -7 加 1 就 产生 -6。 

重要 的 一 点 是 : 
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3.15 符号 扩展 


虽然 图 3.9 展示 了 4 位 二 进 制 串 ,但 这 些 想法 可 以 扩展 到 任意 数量 的 位 。 许 多 计算 机 包 
括 多 种 不 同位 数 的 整数 硬件 (例如 ， 一 台 计 算 机 可 以 提供 16 位 、32 位 和 64 位 表示 )， 并 且 
允许 程序 员 为 每 个 整数 数据 项 选择 其 中 一 种 。 

如 果 计 算 机 确实 包含 多 种 不 同位 数 的 整数 ， 则 会 出 现 将 较 小 长 度 的 整数 复制 到 较 大 长 度 
的 整数 的 情况 。 例 如 ， 考 虑 将 一 个 16 位 整数 的 值 复制 到 32 位 整数 。 应 该 把 什么 放 在 额外 的 


位 ? 在 补 码 中 ,解决 方案 包括 复制 最 低 有 效 位 ， 然 后 扩展 符号 位 一 一 如 果 原 始 值 为 正 值 ， 则 
使 用 0 填充 较 长 数字 的 高 位 ; 如 果 原 始 值 是 负 值 ， 则 使 用 1 填充 较 长 数字 的 高 位 。 无 论 哪 种 
情况 ， 更 多 位 的 整数 将 被 解释 为 具有 与 更 少 位 的 整数 相同 的 数值 。® 

我 们 可 以 总 结 出 : 
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由 于 补 码 硬 件 在 对 无 符号 值 执行 算术 运算 时 给 出 了 正确 的 结果 ， 看 起 来 软件 可 以 使 用 硬 
件 来 支持 所 有 无 符号 数 的 操作 。 但 是 ， 符 号 扩展 提供 了 规则 的 一 个 例外 : 硬件 将 始终 执行 符 
号 扩展 ， 这 可 能 会 有 意 想不到 的 结果 。 例 如 ， 如 果 一 个 无 符号 整数 被 复制 到 一 个 更 大 的 无 符 
号 整数 中 ， 那 么 如 果 高 位 为 1， 那么 副本 将 不 会 有 相同 的 数值 。 要 点 是 : 









3.16 浮 点 数 


通用 计算 机 除了 执行 有 符号 和 无 符号 整数 运算 的 硬件 之 外 ， 还 提供 对 浮 点 值 执行 算术 运 
算 的 硬件 。 计 算 机 中 使 用 的 浮 点 表示 法 来 自 科 学 记 数 法 ， 其 中 每 个 值 都 由 尾数 和 指数 表示 。 
例如 ， 科 学 符号 表示 值 -12 345 为 -1.2345 x 10*。 同 样 ， 化 学 家 也 许 会 写 出 一 个 著名 的 常 
数 ， 如 阿 伏 伽 德 罗 常 数 : 


6.023 x 102” 
与 传统 的 科学 记 数 法 不 同 ， 计 算 机 中 使 用 的 浮 点 表示 法 是 基于 二 进 制 的 。 因 此 ， 浮 点 值 
由 一 个 位 串 组 成 ， 该 位 串 分 成 三 个 字段 : 存储 符号 的 位 、 存 储 尾数 的 一 组 位 、 存 储 指数 的 一 组 
位 。 与 传统 的 科学 记 数 法 不 同 ， 所 有 浮 点 运算 都 是 基于 2 的 宕 。 例 如 ， 尾 数 使 用 二 进 制 位 权 表 
示 来 存储 一 个 值 ， 指 数 是 一 个 整数 ， 指 定 2 的 宕 而 不 是 10 的 知 。 在 科学 记 数 法 中 ， 我们 将 指 
数 定 为 十 进 制 小 数 点 要 移动 的 位 数 ; 在 浮 点 数 中 ， 将 指数 定 为 二 进 制 小 数 点 移动 的 位 数 。 


日 由 于 2 的 寡 的 除法 和 乘法 可 以 通过 移 位 操作 来 实现 ， 在 右 移 操作 期 间 会 发 生 符号 扩展 ， 得 到 正确 的 值 ， 因 
此 ， 将 整数 -14 右 移 一 位 得 到 -7， 而 将 整数 14 右 移 一 位 得 到 7。 
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为 了 进一步 优化 空间 ， 许 多 浮 点 表示 法 包括 下 列 优化 : 

。 该 值 被 规范 化 。 

e 尾数 最 高 位 是 隐 含 的 。 

e 指数 (的 设计 ) 偏向 于 简化 数值 大 小 的 比较 。 

前 两 个 优化 是 相关 的 。 通 过 调整 指数 以 消除 尾数 的 前 导 零 来 对 浮 点 数 进行 规范 化 。 在 
十 进 制 中 ， 例 如 ，0.003 x 104 可 以 规范 化 为 3 x 10'。 有 趣 的 是 ， 对 二 进 制 浮 点 数 进行 规范 化 
总 是 会 产生 一 个 “1” 的 前 导 位 (数字 0 的 特殊 情况 除外 )。 因 此 ， 为 了 增加 尾数 中 精度 的 位 
数 ， 当 数值 存储 在 内 存 中 时 ， 浮 点 数 表 示 不 需要 存储 尾数 的 最 高 位 。 相 反 ， 当 需要 进行 浮 点 
数 计 算 时 ， 硬 件 将 “1” 位 连接 到 尾数 上 。 

下 面 通过 一 个 例子 阐明 这 些 概 念 。 我 们 将 使 用 的 示例 是 IEEE “标准 754， 它 在 计算 机 工 
业 中 被 广泛 使 用 。 该 标准 指定 了 单 精度 和 双 精 度数 字 。 按 照 标准 ， 单 精度 值 占用 32 位 ， 双 
精度 值 占用 64 位 。 图 3.10 说 明了 IEEE 标准 如 何 将 浮 点 数 分 成 三 个 字段 。 


3130 23 22 0 


a ) 单 精度 
6362 2 0 
ET 
b ) 双 精 度 


图 3.10 符合 IEEE 标准 754 的 浮 点 数 的 格式 。 每 个 字段 中 的 最 低位 已 被 标记 。 字 段 由 符号 
位 、 指 数 和 尾数 组 成 


图 3.10 中 的 位 编号 遵循 IEEE 标准 ， 其 中 最 低位 被 指定 为 位 编号 0。 以 单 精 度 为 例 ， 构 
成 尾数 的 最 右边 的 23 个 位 被 编号 为 0 到 22。 构 成 指数 的 接 下 来 的 8 个 位 被 编号 为 23 到 
30， 并 且 包 含 符号 的 最 高 有 效 位 的 位 编号 为 31。 对 于 双 精 度数 ， 尾 数 占用 52 位 ， 指 数 占用 
王位。 


3.17 IEEE 浮 点 值 的 范围 
IEEE 标准 中 ,规范 化 的 单 精度 浮 点 数 允 许 指数 范围 从 -126 到 127。 因 此 ， 可 以 表示 的 
值 的 近似 范围 是 : 


lee 到 og 
用 十 进 制 表示 ， 大 约 是 : 
10 到 10” 
IEEE 的 双 精 度 浮 点 标准 提供 了 比 单 精度 更 大 的 范围 。 范 围 是 : 
DT 到 ps 
用 十 进 制 表 示 ， 大 约 是 : 
1 到 102 


为 了 快速 进行 尾数 大 小 的 比较 ，IEEE 标准 规定 指数 字段 存储 指数 (2 的 寡 ) 加 上 偏差 常 
数 。 单 精度 使 用 的 偏差 常数 为 127， 双 精度 使 用 的 偏差 常数 为 1023。。 例 如 ， 要 存储 指数 3， 


唱 IEEE 代表 电气 和 电子 工程 师 协 会 ， 是 一 个 创建 电子 数字 系统 标准 的 组 织 。 
@ 偏差 常数 总 是 2 -1， 其 中 上 是 指数 字段 中 的 位 数 。 
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在 单 精度 值 中 指数 字段 被 指定 为 130， 当 指数 为 -5 时 ， 指 数字 段 为 122。 
作为 一 个 浮 点 数 的 例子 ， 考 虑 如 何 表示 6.5。 在 二 进 制 中 ，6 是 110， 而 0.5 是 一 个 二 进 
制 点 之 后 接 一 个 1， 也 就 是 110.1 (二 进 制 )。 如 果 使 用 二 进 制 科 学 记 数 法 并 对 数值 进行 规范 
化 ， 则 6.5 可 以 表达 为 : 
1.101 x 2 
为 了 将 该 值 表示 为 IEEE 单 精度 浮 点 数 ， 符 号 位 为 0， 指数 必须 偏 置 127， 即 129。 在 二 
进 制 中 ，129 是 : 
10000001 
为 了 理解 尾数 的 值 ， 回 忆 一 下 ,没有 存储 前 导 的 “1” 位 ， 这 意味 着 ,尾数 不 是 1101 之 
后 接着 若干 个 零 ， 尾 数 存储 为 : 
10100000000000000000000 
图 3.11 显示 了 这 些 字段 如 何 组 合 形成 6.5 的 单 精度 IEEE 浮 点 表示 。 


符号 位 ”指数 (23 一 30 位 ) 尾数 (0 一 22 位 ) 


图 3.11 值 6.5 (十 进 制 ) 表示 为 单 精 度 IEEE 浮 点 常量 


3.18 ”特殊 值 


像 大 多 数 浮 点 表示 一 样 ，IEEE 标准 遵循 隐 含 前 导 位 的 假设 一 一 假设 尾数 具有 未 被 存储 
的 一 个 前 导 1。 当 然 ， 严 格 执行 假设 存在 一 位 前 导 1 的 表示 是 无 用 的 ， 因 为 该 表示 不 能 存储 
0。 为 了 处 理 0，IEEE 标准 制定 了 一 个 例外 一 一 当 所 有 位 都 为 0 时 ， 忽 略 隐 式 的 假设 ,存储 
的 值 为 0。 

IEEE 标准 包含 两 个 保留 用 于 表示 正 负 无 穷 的 特殊 值 : 指数 全 1 和 尾数 全 0。 包括 无 穷 
大 的 值 的 原因 是 ， 一 些 数字 系统 没有 处 理 诸如 算术 溢出 之 类 错误 的 设施 。 在 这 样 的 系统 中 ， 
保留 一 个 值 是 重要 的 ， 以 便 软件 可 以 确定 浮 点 操作 失败 。 


3.19 二进制 编码 的 十 进 制 表示 


大 多 数 计算 机 使 用 上 述 整数 和 浮 点 数 的 二 进 制 表 示 。 由 于 底层 硬件 使 用 数字 逻辑 ， 所 以 
0 和 1 组 成 的 二 进 制 数 字 直 接 映射 到 硬件 上 。 因 此 ， 硬 件 可 以 高 效 地 计算 二 进 制 算 术 ， 并 且 
所 有 位 的 组 合 都 是 有 效 的 。 然 而 ， 使 用 二 进 制 表示 有 两 个 缺点 。 首 先 ， 值 的 范围 是 2 的 寡 而 
不 是 10 的 寡 〈 例 如 ， 无 符号 的 32 位 整数 的 范围 是 0 到 4 294 967 295 )。 其 次 ， 浮 点 值 被 舍 
入 到 二 进 制 分 数 而 不 是 十 进 制 分 数 。 

二 进 制 分 数 的 使 用 有 一 些 意 想不到 的 后 果 ， 并且 它 不 足以 用 于 所 有 的 计算 。 例 如 ， 考 虑 
存储 美元 和 美 分 的 银行 账户 。 我 们 通常 把 美 分 作为 百 分 之 一 美元 ，5.23 表示 5 美元 23 美 分 。 
令 人 惊讶 的 是 ， 百 分 之 一 ( 即 1 美 分 ) 不 能 完全 表示 为 二 进 制 浮 点 数 ， 因 为 它 变 成 重复 的 二 
进 制 分 数 。 因 此 ， 如 果 银 行 账户 使 用 二 进 制 浮 点 运算 ， 则 单个 硬币 四 舍 五 人 ， 使 得 总 计 不 准 
确 。 从 科学 的 角度 来 看 ， 这 种 不 准确 性 是 有 限 的 ,但 是 人 们 要 求 银行 保留 准确 的 记录 一 一 如 
果 银 行 保留 其 账户 的 有 效 数字 时 丢失 了 零钱 ， 他 们 就 会 变 得 不 安 。 

为 了 满足 需要 十 进 制 的 银行 和 其 他 计算 的 需求 ， 需 要 使 用 二 进 制 编码 的 十 进 制 (BCD) 
表示 。 有 些 电脑 (特别 是 IBM 大 型 机 ) 有 硬件 来 支持 BCD 算法 ; 在 其 他 计算 机 上 ， 软 件 执 
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行 所 有 关于 BCD 值 的 算术 运算 。 
尽管 已 经 使 用 了 各 种 BCD 格式 , 但 其 本 质 总 是 相同 的 : 将 一 个 值 表示 为 一 串 十 进 制 数 
字 。 最 简单 的 情况 是 由 一 个 字符 串 组 成 ， 其 中 每 个 字 节 包含 单个 数字 的 字符 。 但 是 ， 字 符 串 
的 使 用 使 得 计算 效率 低下 ， 并 且 需 要 更 多 的 空间 。 例 如 ， 如 果 一 台 计 算 机 使 用 ASCII 字符 
集 ， 整 数 123456 存储 成 6 个 字 节 值 为 ? : 
Ox31 Ox32 Ox33 0x34 0x35 0x36 
如 果 使 用 字符 格式 ， 则 在 执行 算术 之 前 ， 必 须 将 每 个 ASCI 字符 (例如 ，0x31 ) 转换 
为 等 同 的 二 进 制 值 (例如 ，0x01 )。 另 外 ,一 旦 操作 完成 ， 结 果 的 数字 必须 从 二 进 制 转 换 回 
字符 格式 。 为 了 使 计算 更 有 效率 ， 现 代 BCD 系统 以 二 进 制 而 不 是 字符 来 表示 数字 。 因 此 ， 
123456 可 以 表示 为 : 
Ox01 Ox02 Ox03 Ox04 0x05 0x06 
尽管 使 用 二 进 制 表示 法 有 加 快 算术 运算 速度 的 优点 ， 但 它 也 有 一 个 缺点 : 在 显示 或 打印 
之 前 ， 必 须 将 BCD 值 转换 为 字符 格式 。 总 体 思路 是 ， 由 于 算术 比 IO 更 经 常 执行 ， 保 持 二 
进 制 形 式 将 提高 整体 性 能 。 


3.20 有 符号 数 、 分 数 和 压缩 BCD 表示 法 


我 们 对 BCD 的 描述 省 略 了 商业 系统 中 的 许多 细节 。 例 如 ， 一 个 实现 可 能 会 限制 BCD 
值 的 大 小 。 要 处 理 分 数 ，BCD 必须 包含 一 个 显 式 的 小 数 点 ,或 者 该 表示 必须 指定 小 数 点 的 
位 置 。 此 外 ， 为 了 处 理 有 符号 数 的 算术 ，BCD 表示 必须 包含 一 个 符号 。 有 趣 的 是 ， 最 广泛 
使 用 的 BCD 约定 之 一 将 符号 字 节 放 在 BCD 字符 串 的 右 端 。 因 此 -123456 可 能 由 以 下 序列 
表示 : 

Ox01 Ox02 0x03 0x04 Ox05 0x06 0x2D 
其 中 0x2D 用 来 表示 减 号 的 值 。 将 符号 放 在 右边 的 优点 是 在 执行 算术 时 不 需要 扫描 一 一 除了 
字符 串 的 最 后 一 个 字 节 以 外 的 所 有 字 节 都 与 十 进 制 数 字 相 对 应 。 

使 用 BCD 编码 的 最 后 一 个 细节 来 自 一 个 观察 ， 即 每 个 数字 使 用 一 个 字 节 是 低 效 的 。 每 
个 数字 只 需要 4 位 ， 所 以 用 8 位 字 节 表 示 一 个 数字 (十 进 制 ) 会 浪费 这 个 字 节 的 一 半 。 为 了 
减少 BCD 所 需 的 存储 空间 ， 可 以 使 用 压缩 的 表示 ， 其 中 每 个 数字 占用 半 个 字 节 ( 即 4 位 )。 
对 于 BCD 压缩 版 本 ， 整 数 -123456 可 以 用 4 个 字 节 表示 : 

Ox01 0x23 Ox45 0x6D 
最 后 一 个 半 字 节 包 含 值 0xD ， 表 示 该 数字 是 负数 8 。 


3.21 数据 聚合 


到 目前 为 止 ， 我 们 只 考虑 了 单个 数据 项 的 表示 ， 如 字符 、 整 数 或 浮 点 数 。 大 多 数 编程 语 
言 允 许 程序 员 指 定 包 含 多 个 数据 项 (如 数组 、 记 录 或 结构 体 ) 的 聚合 数据 结构 。 这 些 值 如 何 
存储 ? 一 般 来 说 ， 聚 合 值 占用 连续 的 字 节 。 因 此 ， 在 使 用 8 位 字 节 的 计算 机 上 ， 由 三 个 16 
位 整数 组 成 的 数据 聚合 占用 6 个 连续 的 字 节 ， 如 图 3.12 所 示 。 


昌 ”虽然 我 们 的 示例 使 用 ASCII， 但 通常 IBM 计算 机 使 用 的 BCD 码 是 EBCDIC 字符 集 。 
晶 为 了 辅助 BCD 算法 ，x86 架构 有 一 个 条 件 代码 位 ， 指 示 是 否 为 4 位 加 法 溢出 。 
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整数 1 整数 2 整数 3 
图 3.12 一 个 由 三 个 16 位 整数 组 成 的 数据 聚合 ， 它 被 安排 在 从 0 到 5 连续 的 内 存 字 节 中 


稍 后 我 们 会 看 到 一 些 内 存 系统 并 不 允许 任意 数据 类 型 连续 存放 。 因 此 ， 当 讨论 内 存 架 构 
时 ， 我 们 将 重新 考虑 数据 聚合 。 


3.22 ”程序 的 表示 


现代 计算 机 被 归 为 存储 程序 计算 机 ， 因 为 程序 和 数据 都 放 在 内 存 中 。 我 们 将 在 接 下 来 的 
章节 中 讨论 程序 的 表示 和 存储 ， 包 括 计算 机 理解 的 指令 结构 及 其 在 内 存 中 的 存储 。 现 在 ， 理 
解 每 台 计 算 机 都 定义 了 一 组 特定 的 操作 和 一 个 存储 每 种 操作 的 格式 就 足够 了 。 例 如 ， 在 某 些 
电脑 上 ， 每 条 指令 的 大 小 与 其 他 指令 的 大 小 相同 ; 在 其 他 电脑 上 ， 指 令 大 小 不 一 。 我 们 将 看 
到 ， 在 典型 的 计算 机 上 ， 一 条 指令 占用 多 个 字 节 。 因 此 ,计算 机 用 于 数据 值 的 位 和 字 节 编号 
方案 也 适用 于 指令 。 


3.23 ”小结 


底层 的 数字 硬件 有 两 个 可 能 的 值 一 一 逻辑 0 和 逻辑 1。 我 们 认为 这 两 个 值 定义 了 一 个 位 
(二 进 制 数字 )， 并 用 位 表示 数据 和 程序 。 每 台 计 算 机 都 定义 了 一 个 字 节 的 大 小 ， 而 大 多 数 当 
前 的 系统 定义 每 个 字 节 使 用 8 位 。 

可 以 使 用 一 组 位 表示 来 自 计算 机 的 字符 集 的 每 个 字符 、 无 符号 整数 、 单 精度 浮 点 值 、 双 
精度 浮 点 值 、 计 算 机 程序 。 表 示 方 式 是 精心 选择 的 ， 以 最 大 限度 地 提高 硬件 的 灵活 性 和 速 
度 ， 同 时 保持 低 成 本 。 有 符号 整数 的 补 码 表示 法 特别 受 欢 迎 ， 因 为 可 以 构造 一 个 单一 的 硬件 
来 对 二 进 制 补 码 整数 或 无 符号 整数 进行 操作 。 在 需要 十 进 制 算术 的 情况 下 ， 计 算 机 使 用 二 进 
制 编码 的 十 进 制 表示 ， 数 字 由 指定 的 单个 十 进 制 数字 的 字符 串 表 示 。 

ANSI 和 IEEE 等 组 织 已 经 建立 了 表示 方式 的 标准 ， 这 样 的 标准 使 得 由 两 个 单独 的 组 织 
制造 的 硬件 可 以 互相 操作 和 交换 数据 。 


习题 

3.1 给 出 一 个 数学 证 明 : 一 串 丰 位 可 以 代表 站 个 可 能 的 值 (提示 : 通过 对 位 的 数量 进行 归纳 实现 )。 

3.2 ”以 下 二 进 制 字符 串 的 十 六 进 制 值 是 多 少 ? 

11011110101011011011111011101111 

3.3 ”编写 一 个 计算 机 程序 ， 确 定 它 所 运行 的 计算 机 是 使 用 大 端 还 是 小 端 表 示 整 数 。 

3.4 编写 一 个 计算 机 程序 ， 打 印 由 0 和 1 组 成 的 表示 一 个 整数 的 字符 串 。 在 每 个 位 之 间 插 和 人 一 个 空 
格 ， 并 在 每 四 位 之 后 添加 一 个 额外 的 空格 。 

3.5 ”编写 一 个 计算 机 程序 ， 确 定 它 所 运行 的 计算 机 是 否 使 用 反 码 、 补 码 或 (可 能 的 话 ) 其 他 有 符号 整 
数 的 表示 方法 。 

3.6 ”编写 一 个 计算 机 程序 ， 确 定 它 所 运行 的 计算 机 是 否 使 用 ASCII 或 EBCDIC 字符 集 。 

3.7 ”编写 一 个 计算 机 程序 ， 以 一 组 整数 作为 输入 ， 打 印 每 个 整数 的 补 码 、 反 码 和 原 码 。 

3.8 ”编写 一 个 C 程序， 打印 一 个 包含 所 有 可 能 的 8 位 二 进 制 值 的 表格 和 每 个 值 的 补 码 。 

3.9 编写 一 个 计算 机 程序 ， 将 最 大 可 能 的 正 整数 加 1， 并 使 用 结果 来 确定 计算 机 是 否 执行 补 码 运算 。 
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编写 一 个 计算 机 程序 ， 以 十 六 进 制 显示 一 个 字 节 的 值 ， 并 将 该 程序 应 用 于 一 个 字 节 数组 。 每 四 
个 字 节 后 添加 一 个 额外 的 空格 ， 以 使 输出 更 易于 阅读 。 

扩展 上 一 题 中 的 十 六 进 制 转 储 程序 ， 打 印 任何 可 打印 的 字符 。 对 于 没有 可 打印 表示 的 字符 ， 请 
安排 程序 打印 一 个 句号 。 

一 个 程序 员 计 算 两 个 无 符号 32 位 整数 的 和 。 结 果 总 和 是 否 可 能 小 于 两 个 值 中 的 任何 一 个 ? 请 
说 明 。 

假设 给 定 一 台 计算 机 提供 只 能 执行 32 位 算术 的 硬件 ， 并 被 要 求 创建 加 减 64 位 整数 的 功能 。 如 
何 用 32 位 硬件 执行 64 位 计算 ? (为 了 简化 问题 ， 请 将 你 的 答案 限制 为 无 符号 算术 。) 

C 语言 允许 程序 员 用 十 进 制 、 二 进 制 、 十 六 进 制 和 八进制 来 指定 常量 。 编 写 一 个 程序 ， 用 十 进 
制 、 二 进 制 、 十 六 进 制 和 八进制 声明 0、5、65、128、-1 和 一 256， 并 使 用 printf 证 明 值 是 
正确 的 。 哪 一 个 是 最 简单 的 表示 法 ? 

创建 一 个 类 似 于 教材 中 描述 的 二 进 制 编码 的 十 进 制 表示 形式 ， 并 编写 一 个 使 用 该 形式 将 两 个 任 
意 长 度 整数 相 加 的 计算 机 程序 。 

扩展 前 面 的 程序 以 包含 乘法 。 

金融 业 采 用 “银行 家 ”四 舍 五 和 算法。 阅读 有 关 算 法 ， 并 实现 一 个 程序 ， 使 用 银行 家 会 入 和 传 
统合 入 十进制 算术 来 计算 两 个 十 进 制 值 的 总 和 。 
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4.1 引言 


前 面 的 章节 描述 了 用 于 构建 计算 机 系统 的 基本 构建 块 : 数字 逻辑 和 用 于 各 类 数据 类 型 
(如 字符 、 整 数 和 浮 点 数 ) 的 表示 。 本 章 开 始 探讨 计算 机 系统 的 三 个 关键 要 素 之 一 : 处 理 器 。 
本 章 介绍 一 般 概 念 ， 描 述 处理 器 的 多 样 性 ， 并 讨论 时 钟 频 率 与 处 理 速率 间 的 关系 。 接 下 来 的 
章节 将 通过 解释 指令 集 、 寻 址 模式 和 通用 CPU 的 功能 来 扩展 这 些 基 本 描述 。 


4.2 两 种 基本 的 体系 结构 


在 计算 机 历史 的 早期 ， 尝 试 新 设计 的 架构 师 考 虑 了 如 何 组 织 硬件 。 出 现 了 两 种 基本 的 方 
法 ， 这 些 方法 是 以 提出 这 些 方案 的 组 织 或 人 命名 的 : 

。 哈佛 体系 结构 。 

e 汉 “' 诺 依 曼 体系 结构 。 

我 们 将 会 看 到 ， 这 两 种 架构 共享 许多 思想 ， 仅 在 程序 和 数据 的 存储 和 访问 方式 上 有 所 
不 同 。 


4.3 ”哈佛 与 汉 “' 诺 依 曼 体 系 结构 


术语 哈佛 体系 结构 9 是 指 具有 四 个 主要 组 件 的 计算 机 组 织 : 处 理 器 、 指 令 存 储 器 、 数 据 
存储 器 和 LO 设施 ， 组 织 如 图 4.1 所 示 。 

虽然 包含 相同 的 基本 组 件 ， 但 冯 : 诺 依 曼 体系 结构 ?使 用 单一 内 存 保存 程序 和 数据 。 
图 4.2 说 明了 这 种 方法 。 


计算 机 


输入 /输出 设施 


图 4.1 使 用 两 个 存储 器 的 哈佛 体系 结构 示意 图 ， 图 4.2 汉 . 诺 依 曼 体系 结构 示意 图 。 程 序 和 数据 
一 个 存储 程序 ， 另 一 个 存储 数据 都 可 以 存储 在 同一 个 存储 器 中 


输入 /输出 设施 





”这 个 名 字 的 出 现 是 因为 这 种 方法 首次 在 哈佛 Mark I 中 继 计算 机 上 使 用 。 
是 这 个 名 字 取 自 约翰 ' 冯 … 诺 依 曼 (John Von Neumann), 一 位 首先 提出 该 架构 的 数学 家 。 
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哈佛 体系 结构 的 主要 优势 在 于 ， 它 拥有 一 个 经 过 优化 可 用 于 存储 程序 的 存储 单元 ， 以 及 
另 一 个 经 过 优化 可 用 于 存储 数据 的 存储 单元 。 主 要 缺点 在 于 不 够 灵活 : 购买 计算 机 时 ， 所 有 
者 必须 选择 指令 存储 器 的 大 小 和 数据 存储 器 的 大 小 。 一 旦 购买 了 计算 机 ， 所 有 者 不 能 使 用 部 
分 指令 存储 器 来 存储 数据 ， 也 不 能 使 用 部 分 数据 存储 器 来 存储 程序 。 虽 然 哈佛 体系 结构 已 经 
不 再 受 通用 计算 机 的 青睐 ， 但 它 有 时 仍然 用 于 小 型 上 府 人 式 系统 和 其 他 专门 设计 。 

与 哈佛 体系 结构 不 同 的 是 ， 汉 “ 诺 依 曼 体系 结构 提供 了 完全 的 灵活 性 : 在 任何 时 候 ， 所 
有 者 都 可 以 改变 多 少 内 存 专用 于 程序 以 及 多 少 专用 于 数据 。 该 方法 已 被 证 明 如 此 有 价值 ， 以 
至 于 被 广泛 采用 : 





我 们 说 一 台 遵 循 汉 ' 诺 依 曼 体系 结构 的 计算 机 使 用 存储 程序 方法 ， 因 为 程序 存储 在 存储 
器 中 。 不 仅 如 此 ， 重 要 的 程序 可 以 像 其 他 数据 项 一 样 加 载 到 内 存 中 。 

除了 另 有 说 明 ， 本 书 的 其 余部 分 隐 含 地 假定 均 使 用 冯 “' 诺 依 曼 体系 结构 。 在 第 6 章 和 第 
12 章 中 有 两 个 主要 的 例外 。 第 6 章 解 释 了 数据 路 径 ， 在 例子 中 使 用 了 简化 的 哈佛 体系 结构 。 
第 12 章 解 释 缓存 ， 讨 论 了 使 用 分 离 的 指令 和 数据 缓存 的 动机 。 


4.4 处 理 器 的 定义 


本 章 的 其 余部 分 将 讨论 在 哈佛 和 冯 … 诺 依 曼 体系 结构 中 均 有 的 处 理 右 组 件 。 接 下 来 的 部 
分 定义 了 术语 和 各 类 处 理 器 的 特征 。 后 面 几 节 将 探讨 复杂 处 理 器 的 子 组 件 。 

虽然 程序 员 往 往 会 想到 传统 的 计算 机 ， 并 且 经 常 使 用 术语 “处 理 器 ”作为 中 央 处 理 器 
( CPU) 的 同义词 ， 但 计算 机 架构 师 看 待 的 处 理 器 含义 更 为 广泛 ， 其 中 包括 用 于 控制 汽车 发 
动机 的 处 理 器 、 手 持 琐 控 设备 的 处 理 器 以 及 图 形 设备 使 用 的 专用 视频 处 理 器 。 对 于 架构 师 来 
说 ， 处 理 器 是 指 可 以 执行 涉及 多 个 步骤 的 计算 的 数字 设备 。 单 独 的 处 理 器 不 是 完整 的 计算 
机 ， 它 们 只 是 架构 师 用 来 构建 计算 机 系统 的 构建 块 之 一 。 因 此 ， 虽 然 处理 器 可 以 比 我 们 在 第 
2 章 中 讨论 的 组 合 逻 辑 电路 计算 得 更 多 ， 但 它 不 需要 很 大 或 很 快 。 特 别 是 一 些 处 理 器 的 性 能 
远 远 低 于 典型 PC 中 的 通用 CPU。 接 下 来 的 部 分 通过 讨论 处 理 器 的 特性 并 解释 使 用 它们 的 一 
些 方法 来 辅助 澄清 其 定义 。 


4.5 ”处理 器 的 范围 


由 于 处 理 器 具有 广泛 的 功能 并 且 存 在 很 多 变 体 ， 因 此 没有 任何 单一 的 描述 能 够 充分 捕捉 
处 理 器 的 所 有 属性 。 相 反 ， 为 了 帮助 我 们 理解 许多 设计 ， 我 们 需要 根据 功能 和 预期 用 途 将 处 
理 器 划分 为 多 个 类 别 。 例 如 ， 我 们 可 以 使 用 四 个 类 解释 处 理 器 是 否 可 以 适应 新 的 计算 。 这 些 
类 别 按照 灵活 性 列 出 : 

e 固定 逻辑 。 

e 可 选 逻 辑 。 

e 参数 化 逻辑 。 

e 可 编程 逻辑 。 

最 不 灵活 的 固定 逻辑 处 理 器 执行 单个 任务 。 更 重要 的 是 ， 执 行 操作 所 需 的 所 有 功能 都 是 
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在 创建 处 理 器 时 建立 的 ， 并 且 在 不 更 改 下 层 硬件 的 情况 下 不 能 更 改 功能 ?。 例 如， 可 以 设计 
一 个 固定 的 逻辑 处 理 器 来 计算 一 个 函数 ， 比 如 sin(x), 或 者 执行 视频 游戏 所 需 的 图 形 操 作 。 

可 选 逻 辑 处 理 器 的 灵活 性 比 固定 逻辑 处 理 器 略 高 。 实 质 上 ， 可 选 逻 辑 处 理 器 包含 执行 多 
个 功能 所 需 的 设施 ;， 当 调用 处 理 器 时 ,确切 的 函数 才 会 被 指定 。 例 如 ， 可 选 逻辑 处 理 器 可 能 
被 设计 为 计算 sin(x) 或 cos(x)。 

参数 化 逻辑 处 理 器 增加 了 额外 的 灵活 性 。 虽 然 它 只 计算 一 个 预定 义 的 函数 ,但 处 理 絮 接 
受 一 组 控制 计算 的 参数 。 例 如 ， 考 虑 一 个 计算 散 列 函数 h(x) 的 参数 化 处 理 器 。 该 散 列 函 数 
使 用 两 个 常量 p 和 4g， 并 通过 计算 乘 以 p 并 除 以 gq 时 x 的 余数 来 计算 x 的 散 列 值 。 例 如 ， 如 
果 p 是 167 且 gq 是 163， 则 h(26 729) 是 4 463 743 除 以 163 所 得 的 余数 ， 即 1519。 用 于 这 种 
散 列 函数 的 参数 化 处 理 器 允许 每 当 处 理 器 被 调用 时 改变 常量 p 和 9。 也 就 是 说 ， 除 了 输入 zx 
之 外 ， 处 理 器 还 接受 控制 操作 的 附加 参数 p 和 gq。 

可 编程 逻辑 处 理 器 提供 了 最 大 的 灵活 性 ， 因 为 它 允 许 在 每 次 调用 处 理 器 时 更 改 步 又 序 
列 一 一 通常 可 以 通过 将 程序 放 和 内存 来 为 处 理 器 提供 运行 的 程序 。 


4.6 ”分 层 结构 和 计算 引擎 


大 型 处 理 器 (如 现代 通用 型 CPU ) 非常 复杂 ， 以 至 于 人 类 无 法 将 整个 处 理 器 理解 为 单个 
单元 。 为 了 控制 复杂 性 ， 计 算 机 架构 师 采用 分 层 方法 ， 在 被 组 合成 最 终 设计 之 前 ， 处 理 器 的 
各 个 子 部 件 是 独立 设计 和 测试 的 。 

大 型 处 理 器 的 某 些 独立 子 部 件 非 常 复杂 ， 以 至 于 它们 符合 我 们 对 处 理 需 的 定义 一 一 子 
部 件 可 以 执行 涉及 多 个 步骤 的 计算 。 例 如 ， 具 有 正弦 和 余弦 指令 的 通用 CPU 的 构造 可 以 通 
过 首先 构建 和 测试 三 角 处 理 器 ， 然 后 将 三 角 处 理 器 与 其 他 部 件 组 合 形成 。 

我 们 如 何 描述 一 个 大 型 复杂 处 理 器 的 子 部 件 〈 它 可 以 独立 地 运行 并 执行 计算 ) ? 一 些 工 
程 师 使 用 术语 “计算 引擎 ” 。 术 语 “ 引 擎 ”通常 意味 着 子 部 件 填补 了 特定 的 角色 ， 并 且 不 如 
整个 单元 强大 。 例 如 ， 图 4.3 显示 了 一 个 包含 多 个 引擎 的 CPU。 


CPU 


其 他 部 件 查询 引擎 
算术 引擎 





图 4.3 包含 多 个 组 件 的 CPU 的 示例 。 图 中 央 的 大 箭头 表示 组 件 间 用 于 协调 的 中 央 互 连 机 制 


工程 师 使 用 硬 连 线 这 个 词 来 表示 在 不 改变 底层 布线 的 情况 下 无 法 改变 功能 的 情况 。 
日 散 列 通常 应 用 于 字符 串 。 在 本 例 中 ， 数 字 26 729 是 字符 串 “ hi” 中 两 个 字符 所 对 应 的 ASCII 值 ( 68H,69H) 
被 当 作 无 符号 短 整 数 时 ( 6869H) 的 十 进 制 值 (26 729 )。 
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图 中 的 CPU 包含 一 个 专用 图 形 引擎 。 图 形 引擎 有 时 被 称 为 图 形 加 速 器 ， 是 很 常见 的 ， 
因为 视频 游戏 软件 很 流行 ,许多 计算 机 需要 一 个 图 形 引 擎 来 高 速 驱动 图 形 显示 。 例 如 ， 一 个 
图 形 引擎 可 能 包括 一 些 机 制 实现 重新 绘制 图 形 移动 后 的 表面 (例如 ， 响 应 操纵 杆 移动 ) 。 

图 4.3 所 示 的 CPU 还 包含 一 个 查询 引擎 。 查 询 引 擎 和 密切 相关 的 模式 引擎 用 于 数据 库 
处 理 器 。 查 询 引擎 高 速 检 查 数据 库 记 录 以 确定 记录 是 否 满足 查询 ; 模式 引擎 检查 一 串 位 以 确 
定 该 字符 串 是 否 与 指定 的 模式 相 匹配 (例如 ， 测 试 文档 是 否 包含 特定 的 单词 )。 无 论 哪 种 情 
况 ，CPU 都 有 足够 的 能 力 来 处 理 任务 ， 但 专用 处 理 器 可 以 更 快 地 执行 任务 。 


4.7 传统 处 理 器 的 结构 


虽然 前 一 节 中 介绍 的 假想 的 CPU 包含 许多 引擎 ， 但 大 多 数 处 理 器 并 不 包含 这 些 引 擎 。 
这 里 有 两 个 问题 。 首 先 ， 在 传统 处 理 器 中 都 有 哪些 引擎 ? 其 次 ， 这 些 引 擎 是 如 何 相互 连 接 
的 ? 本 节 将 概括 地 回答 这 些 问题 ， 而 后 面 的 几 节 将 提供 更 多 详细 信息 。 

虽然 实际 的 处 理 器 包含 许多 具有 复杂 内 部 连接 的 子 组 件 ， 但 我 们 可 以 将 处 理 器 视 为 具有 
五 个 概念 单元 : 

e 控制 器 。 

e 算术 逻辑 单元 (ALU)。 

e 本 地 数据 存储 (通常 是 寄存 器 )。 

e 内 部 互 连 。 

e 外 部 接口 (IO 总 线 )。 

图 4.4 说 明了 这 个 概念 。 


外 部 连接 





图 4.4 传统 处 理 器 中 的 五 个 主要 部 件 。 外 部 接口 连接 到 计算 机 系统 的 其 余部 分 


控制 器 。 控 制 器 构成 处 理 器 的 心脏 。 控 制 器 硬件 全 面 负责 程序 执行 。 也 就 是 说 ， 控 制 器 
逐步 执行 程序 并 协调 所 有 其 他 硬件 单元 的 动作 以 执行 指定 的 操作 。 

算术 逻辑 单元 (ALU)。 我 们 认为 ALU 是 处 理 器 中 的 主要 计算 引擎。ALU 执行 所 有 计 
算 任 务 ， 包 括 整数 算术 、 位 操作 〈 例 如 左 移 或 右 移 ) 和 布尔 (逻辑 ) 操作 〈 例 如 布尔 与 、 或 、 
异 或 、 非 )。 但 是 ，ALU 不 会 执行 多 个 步骤 或 启动 多 个 活动 。 相 反 ，ALU 一 次 只 执行 一 个 操 
作 ， 并 依赖 于 控制 器 精确 指定 要 对 操作 数 执行 什么 操作 。 

本 地 数据 存储 。 处 理 器 必须 至 少 有 一 些 本 地 存储 器 来 存放 数据 值 ， 例 如 算术 运算 的 操作 
数 和 结果 。 正 如 我 们 将 看 到 的 ， 本 地 存储 通常 采用 硬件 寄 春 器 的 形式 一 一 在 计算 中 使 用 这 些 
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值 之 前 ， 必 须 将 这 些 值 加 载 到 硬件 寄存 器 中 。 

内 部 互 连 。 处 理 器 包含 一 个 或 多 个 硬件 装置 ， 用 于 在 其 他 硬件 单元 之 间 传 输 值 。 例 如 ， 
互 连 硬件 用 于 将 数据 值 从 本 地 存储 移动 到 ALU 或 将 结果 从 ALU 移动 到 本 地 存储 。 架 构 师 
有 时 使 用 术语 “数据 通路 ”来 描述 内 部 互 连 。 

外 部 接口 。 外 部 接口 单元 控制 处 理 器 与 计算 机 系统 其 余部 分 之 间 的 所 有 通信 。 特 别 是 ， 
外 部 接口 管理 处 理 器 与 外 部 存储 器 和 IO 设备 之 间 的 通信 。 


4.8 处 理 器 的 分 类 和 和 角色 


对 于 没有 遇 到 硬件 设计 的 人 来 说 ， 理 解 处 理 器 的 领域 尤其 困难 ， 因 为 处 理 器 可 以 用 于 各 
种 角色 。 如 果 我 们 考虑 硬件 设备 使 用 处 理 器 的 方式 以 及 处 理 器 在 每 个 角色 中 的 功能 ， 这 可 能 
会 有 所 帮助 。 这 里 有 四 个 例子 : 

。 协 处 理 融 。 

e 微 控制 器 。 

e 说 入 式 系统 处 理 右 。 

。 通用 处 理 器 。 

协 处 理 器 。 协 处 理 器 与 另 一 个 处 理 器 关联 在 一 起 并 在 其 控制 下 运行 。 通 常 ， 协 处 理 器 由 
一 个 可 以 高 速 执行 单个 任务 的 专用 处 理 器 组 成 。 例 如 ， 某 些 CPU 使 用 称 为 浮 点 加 速 器 的 协 
处 理 器 来 加 速算 术 运 算 的 执行 一 一 当 发 生 浮 点 运算 时 ，CPU 自动 将 必要 值 传递 给 协 处 理 需 ， 
获得 结果 ， 然 后 继续 执行 。 一 个 正在 运行 的 程序 并 不 知道 哪些 操作 是 直接 在 CPU 执行 ， 哪 
些 操作 是 在 协 处 理 器 上 执行 ,我 们 说 协 处 理 器 的 操作 对 软件 是 不 透明 的 。 典 型 的 协 处 理 器 使 
用 固定 或 可 选择 的 逻辑 ， 这 意味 着 协 处 理 器 可 以 执行 的 功能 在 协 处 理 器 设计 时 确定 。 

微 控 制 器 。 微 控制 器 由 专用 于 控制 物理 系统 的 可 编程 设备 组 成 。 例 如 ， 微 控制 器 运行 各 
种 物理 系统 ， 如 现代 汽车 中 的 发 动机 、 飞 


机 上 的 起 落架 以 及 杂货 店 中 的 自动 门 。 在 pr 
许多 情况 下 ， 微 控制 器 执行 一 项 不 需要 大 等 待 传感器 跳 用; 

多 传统 计算 的 简单 功能 。 相 反 ， 微 控制 器 CR 
测试 传感器 并 发 送信 号 来 控制 设备 。 图 等 待 传感器 重 置 
4.5 列 出 了 一 个 典型 的 微 控制 器 可 以 编程 ed 


门 马达 电源 关闭 ; 


执行 的 步骤 示例 : 

谈 入 式 系统 处 理 器 。 租 人 式 系统 处 理 
器 运行 复杂 的 电子 设备 ， 如 无 线路 由 需 或 
智能 手机 。 用 于 骨 入 式 系统 的 处 理 器 通常 
比 用 作 微 控 制 器 的 处 理 器 更 强大 ， 并 且 经 
常 运行 用 于 通信 的 协议 栈 。 但 是 ， 这 种 处 理 器 可 能 不 包含 更 多 通用 CPU 上 的 功能 。 

通用 处 理 器 。 通 用 处 理 器 是 我 们 最 熟悉 的 ， 几 乎 不 需要 解释 。 例 如 ，PC 中 的 CPU 是 通 
用 处 理 器 。 


4.9 处 理 器 技术 


处 理 器 是 如 何 创建 的 ? 在 20 世纪 60 年 代 ， 处 理 器 是 由 数字 逻辑 电路 创建 的 。 单 个 门 在 
电路 板 上 连接 在 一 起 ， 然 后 插入 机 箱 来 构成 一 台 能 工作 的 计算 机 。 到 20 世纪 70 年 代 ， 大 规 





图 4.5 微 控制 器 执行 若干 步 又 的 示例 。 在 大 多 数 
情况 下 ， 微 控制 器 专用 于 简单 的 控制 任务 


甸 4 音 处理 器 而 计算 列 擎 筋 多 楷 隆 有 


模 集 成 电路 技术 才 得 以 实现 ， 这 意味 着 最 小 和 最 弱 的 处 理 器 〈 例 如 用 于 微 控制 器 的 处 理 器 ) 
都 可 以 在 单个 集成 电路 上 实现 。 随 着 集成 电路 技术 的 改进 和 芯片 上 晶体 管 数量 的 增加 ， 单 
个 芯片 变 得 能 够 容纳 更 强大 的 处 理 器 。 今 天 ， 许 多 最 强大 的 通用 处 理 器 都 由 一 个 集成 电路 
组 成 。 


4.10 存储 程序 


我 们 说 过 一 个 处 理 器 执行 一 个 计算 涉及 多 个 步骤 。 尽 管 一 些 处 理 器 具有 内 建 到 硬件 中 
的 一 系列 步骤 ， 但 大 多 数 处 理 器 没有 。 相 反 ， 它 们 是 可 编程 的 〈 即 它们 依赖 于 称 为 编程 的 机 
制 )。 也 就 是 说 ， 组 成 一 个 程序 的 要 执行 的 步骤 序列 放置 在 处 理 器 可 以 访问 的 位 置 ; 处 理 器 
访问 这 个 程序 并 遵循 指定 的 步骤 。 

计算 机 程序 员 熟 悉 使 用 主 存储 器 作为 保存 程序 的 位 置 的 传统 计算 机 系统 。 每 次 用 户 运行 
应 用 程序 时 ， 程 序 都 会 被 加 载 到 内 存 中 。 使 用 主 存储 器 保存 程序 的 主要 优势 在 于 能 够 更 改 程 
序 。 程 序 更 改 后 ,用 户 在 下 次 运行 它 时 ， 将 使 用 更 改 后 的 版 本 。 

虽然 我 们 的 传统 编程 概念 对 通用 处 理 器 非常 适用 ,但 其 他 类 型 的 处 理 器 使 用 不 易 更 改 的 
蔡 代 机 制 。 例 如 ， 微 控制 器 的 程序 通常 驻 留 在 称 为 只 读 存 储 器 ( ROM) 的 硬件 中 (后面 的 章 
节 更 详细 地 描述 了 内 存 )。 实 际 上 ， 包 含 程序 的 ROM 可 以 和 运行 该 程序 的 微 控制 器 一 起 驻 
留 在 单个 集成 电路 上 。 例 如 ， 汽 车 中 使 用 的 微 控制 器 可 能 驻 留 在 单个 集成 电路 上 ， 该 集成 电 
路 也 包含 微 控 制 器 运行 的 程序 。 

重要 的 一 点 是 ， 编 程 是 一 个 广泛 的 概念 : 





4.11 取 指 - 执行 周期 

可 编程 处 理 器 如 何 访问 和 执行 程序 的 步 又? 第 6 章 中 关于 数据 通路 的 描述 解释 了 基本 思 
想 。 尽 管 处 理 器 的 细节 各 不 相同 ， 但 所 有 可 编程 处 理 器 都 遵循 相同 的 基本 原则 。 底 层 机 制 被 
称 为 取 指 一 执行 周期 。 

为 了 实现 取 指 - 执行， 处 理 器 有 一 个 指令 指针 ， 可 以 自动 遍历 内 存 中 的 程序 ， 执 行 每 一 
步 。 也 就 是 说 ， 每 个 可 编程 处 理 器 重复 执行 两 个 基本 功能 。 算 法 4.1 给 出 了 两 个 基本 步骤 9 。 


算法 4.1 取 指 - 执行 周期 的 基本 步骤 
循环 执行 { 
取 指 : 从 程序 存储 的 当前 位 置 访问 接 下 来 的 步骤 。 


执行 : 执行 程序 的 步骤 。 





唱 请 注意 ， 这 里 介绍 的 算法 是 一 种 简化 形式 ; 当 讨论 1O 时 ， 我 们 会 看 到 如 何 扩展 算法 以 处 理 设备 中 断 。 
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重点 是 : 
在 亲 种 程度 上 ， 每 个 可 编程 处理 器 者 实现 了 取 指 -执行 周期 。 


几 个 问题 出 现 了 。 程 序 在 内 存 中 是 如 何 表示 的 ， 以 及 这 种 表示 是 如 何 创 建 的 ? 处理 器 如 
何 确定 程序 的 下 一 步 ? 在 取 指 - 执行 周期 的 执行 阶段 可 以 执行 哪些 操作 ? 处 理 器 如 何 执行 
每 项 操作 ? 接 下 来 的 章节 将 更 详细 地 回答 这 些 问 题 。 本 章 的 其 余部 分 集中 讨论 三 个 问题 : 处 
理 器 运行 速度 有 多 快 ， 处 理 器 如 何 从 程序 的 第 一 步 开 始 ， 以 及 处 理 器 到 达 程 序 结束 时 会 发 生 
什么 ? 


4.12 ”程序 转换 


程序 员 关 心 的 一 个 重要 问题 是 如 何 将 程序 转换 为 处 理 器 期 望 的 形式 。 程 序 员 使 用 高 级 语 
言 ( HLL) 来 创建 计算 机 程序 。 我 们 说 程序 员 写 的 是 源 代码 。 程 序 员 使 用 一 种 工具 将 源 代码 
翻译 成 处 理 器 期 望 的 表示 形式 。 
虽然 程序 员 调 用 单个 工具 (如 gcc)， 但 需要 执行 多 个 步骤 才能 执行 转换 。 首 先 ， 预 处 理 
器 扩展 宏 ， lt tnd 该 编译 器 将 该 程序 翻译 
为 汇编 语言 。 尽 管 它 更 接近 处 理 器 所 需 的 形式 ， 但 汇编 语言 可 以 被 人 类 读 取 。 汇 编 器 将 汇 
编 语言 程序 转换 为 可 重 定位 的 对 象 程序 ， 该 程序 包含 二 进 制 代码 和 对 外 部 库 函 数 的 引用 的 组 
合 。 链 接 器 通过 用 函数 代码 替换 外 部 函数 引用 来 处 理 可 重 定位 对 象 程序 。 为 此 ,链接 器 提取 
函数 的 名 称 ， 搜 索 一 个 或 多 个 库 以 查找 该 函数 的 二 进 制 代 码 。 图 4.6 说 明了 转换 步骤 和 执行 
每 个 步骤 的 软件 工具 。 


源 代码 一 =| 预 处 理 器 一 人 并 后 的 。| 编译 器 一 一 江 人 请 





可 重 定位 进 制 
汇编 器 | 一 = 日 标 代码 | 链接 器 目标 代码 
库 中 的 
目标 代码 
( 函数 ) 


图 4.6 用 于 将 源 程序 转换 为 处 理 器 使 用 的 二 进 制 目标 代码 表示 的 步骤 


4.13 时钟 速率 和 指令 速率 

关于 处 理 器 的 一 个 主要 问题 涉及 速度 : 取 指 - 执行 周期 的 运行 速度 有 多 快 ? 答案 取决 于 
处 理 器 、 用 于 存储 程序 的 技术 以 及 执行 每 条 指令 所 需 的 时 间 。 一 方面 ， 用 来 驱动 物理 设备 
(例如 ， 电 动 门 ) 的 微 控制 器 的 处 理 器 可 能 相对 较 慢 ， 因 为 低 于 十 分 之 一 秒 的 响应 时 间 对 于 
人 类 来 说 似乎 很 快 。 另 一 方面 ， 用 于 最 高 速 计算 机 的 处 理 器 必须 尽 可 能 快 ， 因 为 其 目标 是 最 
高 性 能 。 

正如 我 们 在 第 2 章 中 看 到 的 那样 ， 大 多 数 处理 器 使 用 时 钟 来 控制 底层 数字 逻辑 运行 的 速 
率 。 任 何 购买 计算 机 的 人 都 知道 ， 销 售 人 员 促 使 消费 者 购买 时 钟 速率 高 的 电脑 ， 理 由 是 更 
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高 的 时 钟 速率 会 带 来 更 高 的 性 能 。 尽 管 更 高 的 时 钟 速率 通常 意味 着 更 高 的 处 理 速度 ， 但 重要 
的 是 要 认识 到 ， 时 钟 速率 不 会 决定 取 指 - 执行 周期 的 进行 速度 。 特 别 是 在 大 多 数 系统 中 ， 周 
期 的 执行 部 分 所 需 的 时 间 取 决 于 正在 执行 的 指令 。 稍 后 我 们 会 看 到 ， 涉 及 内 存 访 问 或 IO 操 
作 的 指令 相 比 那些 不 涉及 这 类 操作 的 指令 而 言 ， 可 能 需要 更 多 的 时 间 ( 即 更 多 的 时 钟 周期 )。 
时 间 在 基本 算术 运算 中 也 有 所 不 同 : 整数 乘法 或 除法 需要 比 整数 加 法 或 减法 更 多 的 时 间 。 浮 
点 运算 特别 费时 ， 因 为 浮 点 运算 通常 需要 比 等 效 整数 运算 更 多 的 时 钟 周期 。 浮 点 乘法 或 除法 
特别 费时 一 一 单 次 浮 点 除法 可 能 需要 比 整数 加 法 多 几 个 数量 级 的 时 钟 周期 。 

现在 ， 记 住 一 般 原则 就 足够 了 : 


a 






国定 的 速率 进行 


4.14 控制 : 启动 和 停止 


到 目前 为 止 ， 我 们 已 经 在 不 提供 细节 的 情况 下 讨论 了 处 理 器 运行 一 个 取 指 - 执行 周期 。 
我 们 现在 需要 回答 两 个 基本 问题 。 处 理 器 如 何 开 始 运行 取 指 - 执行 周期 ? 处 理 器 执行 到 程序 
中 的 最 后 一 步 后 会 发 生 什么 ? 

程序 终止 的 问题 是 最 容易 理解 的 : 处 理 器 硬件 没有 停止 的 设计 。 取 而 代 之 的 是 ， 取 指 -- 
执行 周期 无 限期 地 继续 。 当 然 ， 处 理 器 可 以 永久 停止 ， 但 是 这 样 的 后 果 仅 出 现在 关闭 计算 机 
时 一 一 正常 的 操作 中 ， 处 理 器 连续 执行 一 个 接 一 个 的 指令 。 

在 某 些 情况 下 ， 程 序 使 用 循环 实现 延迟 。 例 如 ， 在 继续 操作 之 前 ， 微 控制 器 可 能 需要 等 
待 传感器 指示 外 部 条 件 已 满足 。 处 理 器 不 只 是 停 下 来 等 竺 传感器。 相反 ， 该 程序 包含 一 个 重 
复 测 试 传感器 的 循环 。 因 此 ， 从 硬件 角度 来 看 ， 取 指 - 执行 周期 一 直 在 继续 。 

无 穷 的 取 指 - 执行 周期 的 概念 对 编程 有 直接 影响 : 软件 必须 被 规划 好 ， 以 便 处 理 器 总 
是 有 下 一 步 去 执行 。 在 专用 系统 (如 控制 物理 设备 的 微 控制 器 ) 的 情况 下 ， 程 序 由 一 个 无 限 
循环 组 成 一 一 当 完 成 程序 的 最 后 一 步 时 ， 处 理 器 将 在 第 一 步 重 新 开始 。 在 通用 计算 机 的 情况 
下 ， 操 作 系统 总 是 存在 。 操 作 系统 可 以 将 应 用 程序 加 载 到 内 存 中 ， 然 后 指示 处 理 器 运行 应 用 
程序 。 为 了 保持 取 指 - 执行 周期 的 运行 ， 操 作 系统 必须 安排 在 应 用 程序 结束 时 重新 获得 控制 
权 。 当 没有 应 用 程序 运行 时 ， 操 作 系统 进入 一 个 循环 ， 等 待 输入 (例如 ,， 来自 触摸 屏 、 键 盘 
或 鼠标 )。 

总 结 一 下 : 
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4.15 启动 取 指 - 执行 周期 


处 理 器 如 何 启 动 取 指 一 执行 周期 ? 答案 很 复杂 ， 因 为 它 取 决 于 底层 硬件 。 例 如 ， 某 些 处 
理 器 有 硬件 重启 动 按钮 。 在 这 样 的 处 理 器 上 ， 工 程 师 安排 一 个 组 合 逻 辑 电 路 驱动 复位 线 ， 直 
到 所 有 系统 组 件 准备 好 运行 才 结束 。 当 电压 从 复位 线 上 移 除 时 ， 处 理 器 开始 从 固定 位 置 执行 
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程序 。 一 旦 处 理 器 复位 ， 一 些 处 理 器 开始 执行 在 内 存 中 的 地 址 零 处 找到 的 程序 。 在 这 样 的 系 
统 中 ， 设 计 者 必须 保证 在 处 理 器 启动 之 前 将 有 效 程序 放置 在 地 址 零 处 。 

启动 处 理 器 的 步骤 称 为 引导 程序 。 在 嵌入 式 环 境 中 ,要 运行 的 程序 通常 驻 留 在 只 读 存 储 
器 (ROM) 中 。 在 常规 计算 机 上 ， 硬 件 从 IO 设备 (如 磁盘 ) 读 取 操作 系统 的 副本 ， 并 在 启 
动 处 理 器 之 前 将 副本 放 人 内存 中 。 无 论 哪 种 情况 ， 都 需要 硬件 辅助 来 进行 引导 ， 因 为 必须 将 
引起 取 指 - 执行 周期 开始 的 信号 传递 给 处 理 器 。 

许多 设备 都 有 一 个 软 电源 开关 ， 这 意味 着 电源 开关 并 未 实际 打开 或 关闭 。 相 反 ， 开 关 就 
像 一 个 传感器 一 一 处 理 器 可 以 询问 开关 以 确定 其 当前 位 置 。 启 动 具 有 软 开关 的 设备 与 启动 其 
他 设备 没有 区 别 。 当 首次 加 电 时 (例如 ， 当 安装 电池 时 )， 处 理 器 启动 到 初始 状态 。 初 始 状 
态 由 询问 软 开 关 状 态 的 循环 组 成 。 一 旦 用 户 按 下 软 电源 开关 ， 硬 件 便 完成 引导 过 程 。 


4.16 小 结 


处 理 器 是 一 个 可 以 执行 涉及 多 个 步骤 的 计算 的 数字 设备 。 处 理 器 可 以 使 用 固定 的 、 可 选 
择 的 、 参 数 化 的 或 可 编程 的 逻辑 。 术 语 “ 引 擎 ”标识 了 一 个 处 理 器 ， 它 是 更 复杂 处 理 器 的 子 
部 件 。 

处 理 器 可 作为 各 种 角色 ， 包 括 协 处 理 器 、 微 控制 器 、 舱 入 式 处 理 器 和 通用 处 理 器 。 虽 然 
早期 的 处 理 器 是 由 离散 逻辑 创建 的 ， 但 现代 处 理 器 被 实现 为 单个 集成 电路 心 片 。 

如 果 在 某 个 级 别 上 ， 处 理 器 与 处 理 器 执行 的 步骤 序列 分 离 ， 则 处 理 器 被 归 类 为 可 编程 ; 
但 从 最 终 用 户 的 角度 来 看 ， 可 能 无 法 在 不 更 换 处 理 器 的 情况 下 更 改 程序 。 所 有 可 编程 处 理 器 
都 遵循 取 指 - 执行 周期 ;一 个 周期 所 需 的 时 间 取 决 于 所 执行 的 操作 。 由 于 取 指 - 执行 过 程 无 
限期 地 继续 ， 设 计 者 必须 以 这 样 的 方式 构造 程序 ， 即 处 理 器 总 是 有 指令 执行 。 

使 用 一 组 软件 程序 以 将 由 程序 员 编 写 的 源 程序 翻译 成 处 理 器 所 需 的 二 进 制 表示 。 该 集合 
包括 预 处 理 器 、 编 译 器 、 汇 编 器 和 链接 器 。 


习题 

4.1 图 4.1 和 图 4.2 都 没有 将 存储 器 作为 主要 组 件 。 存 储 设备 〈 例 如， 闪存 或 电子 机 械 磁 盘 ) 在 图 中 哪 
个 位 置 ? 

4.2 考虑 第 2 章 中 描述 的 片上 系统 ( SoC ) 方法 。 除 了 处 理 器 、 存 储 器 和 1/0 设施 之 外 ，SoC 还 需要 
什么 ? 

4.3 查阅 维基 百科 了 解 早 期 电脑 。 哈 佛 Mark I 计算 机 有 多 少 内 存 ， 它 创造 于 哪 一 年 ? IBM 360/20 计 
算 机 有 多 少 内 存 ， 它 创造 于 哪 一 年 ? 

4.4 尽管 CPU 制造 商 吹 喔 芯片 上 的 图 形 加 速 器 ， 但 一 些 电 子 游戏 设计 人 员 选 择 将 图 形 硬件 与 处 理 器 
分 开 。 解 释 这 种 分 开 的 一 个 可 能 的 原因 。 

4.5 想象 一 下 采用 哈佛 体系 结构 的 智能 手机 。 如 果 你 购买 这 样 的 电话 ， 需 要 指定 哪些 你 通常 不 指定 的 
内 容 ? 

4.6 汉 诺 依 曼 体系 结构 的 哪 一 方面 使 它 比 哈佛 体系 结构 更 容易 受到 黑客 攻击 ? 

4.7 如 果 你 有 机 会 使 用 gcc， 请 阅读 手册 页 以 了 解 允许 你 仅 运 行 预 处 理 器 的 命令 行 参数 ， 并 将 预 处 理 
程序 放 入 可 查看 的 文件 中 。 源 程序 有 了 哪些 改变 ? 

4.8 通过 将 编译 器 产生 的 汇编 语言 输出 到 可 查看 的 文件 中 ， 扩 展 前 面 的 练习 。 

4.9 编写 一 个 计算 机 程序 ， 比 较 整 数 部 分 和 浮 点 部 分 之 间 执 行 时 间 的 差异 。 为 了 测试 程序 ， 请 执行 每 
种 操作 100 000 次 ， 并 比较 运行 时 间 的 差异 。 
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5.1 引言 


上 一 章 介 绍 了 各 种 处 理 器 ， 解 释 了 可 编程 处 理 器 的 取 指 - 执行 周期 。 本 章 继续 之 前 的 讨 
论 ， 重 点 关注 处 理 器 可 执行 的 操作 集合 。 本 章 解释 选择 不 同 的 计算 机 体系 结构 的 方法 ， 讨 论 
每 种 方法 的 优 缺点 。 下 一 章 延 伸 讨论 ， 主 要 描述 处 理 器 访问 操作 数 的 不 同方 式 。 


5.2 数学 能 力 、 便 利 性 和 成 本 


处 理 器 应 该 提供 什么 操作 呢 ? 从 数学 的 角度 来 看 ， 广 泛 的 计算 模型 提供 相同 的 运算 能 
力 。 理 论 上 ， 只 要 处 理 器 提供 一 些 基本 操作 ， 它 就 具备 计算 任何 可 计算 函数 的 能 力 。8 

程序 员 明白 ， 尽 管 只 有 最 少 的 一 组 操作 是 必需 的 ， 但 是 这 种 最 小 化 的 操作 集 既 不 方便 也 
不 实际 。 也 就 是 说 ， 这 组 操作 是 为 了 方便 而 设计 的 ， 而 不 仅仅 是 功能 。 例 如 ， 可 以 通过 重复 
的 减法 计算 商 。 但 是 ， 使 用 重复 减法 实现 除法 的 程序 运行 得 很 慢 。 因 此 ， 大 多 数 处 理 器 操作 
包含 加 、 减 、 乘 、 除 的 硬件 基本 算术 运算 。 

对 于 计算 机 架构 师 来 说 ， 确 定 处 理 器 将 执行 的 操作 体现 出 一 种 折 中 。 一 方面 ， 增 加 额外 
的 算术 运算 (如 乘法 或 除法 ) 可 以 为 程序 员 提 供 便利 。 另 一 方面 ， 每 个 额外 的 操作 都 会 增加 
更 多 硬件 ， 并 使 处 理 器 设计 更 加 困难 。 添 加 硬件 也 会 增加 工程 上 需要 考虑 的 因素 ， 比 如 芯片 
的 尺寸 、 功 耗 和 散热 。 由 于 智能 手机 的 设计 主要 考虑 节约 电能 ， 智 能 手机 的 处 理 器 相 比 功能 
强大 的 大 型 计算 机 的 处 理 器 ， 内 置 的 操作 更 少 。 

关键 在 于 ， 当 考虑 处 理 器 提供 的 操作 集 时 ， 我 们 需要 记 住 操作 集 的 选择 体现 出 复杂 的 
权衡 : 





i 所 末 、 编 程 的 便利 性 以 及 讲 如 功 共生 工程 考 庆 因 


5.3 ”指令 集 架 构 

当 架 构 师 设计 一 个 可 编程 的 处 理 器 时 ， 他 必须 做 出 两 个 关键 决定 : 

。 指令 集 一 一 处 理 器 提供 的 一 组 操作 。 

。 指令 表示 一 一 每 个 操作 的 格式 。 

我 们 使 用 术语 指令 集 来 表示 硬件 可 以 识别 的 一 组 操作 ， 并 将 每 个 操作 称 为 指令 。 假 设 每 
一 次 取 指 - 执行 周期 ， 处 理 器 执行 一 条 指令 。 

指令 集 的 定义 规定 了 指令 的 所 有 细节 ， 包 括 处 理 器 执行 指令 时 的 明确 要 求 。 因 此 ， 指 令 
集 定义 了 每 条 指令 操作 的 值 和 指令 产生 的 结果 。 定 义 明确 了 允许 值 (例如 ， 除 法 指令 要 求 除 
数 非 零 ) 和 错误 状态 〈 例 如 ， 加 法 结果 溢出 的 处 理 )。 


日 在 数学 意义 上 ， 计 算 任何 可 计算 函数 只 需要 三 个 操作 : 加 一 ， 减 一 ， 如 果 一 个 值 非 零 则 分 支 。 


术语 指令 表示 (指令 格式 ) 指 硬 件 使 用 的 指令 的 二 进 制 表示 。 指 令 表示 很 重要 ， 它 定义 
了 一 个 关键 接口 : 生成 指令 并 将 指令 存 人 内 存 的 软件 和 执行 指令 的 硬件 之 间 的 接口 。 软 件 
(例如 ， 编 译 器 、 链 接 器 和 加 载 器 ) 必须 在 内 存 中 创建 一 个 镜像 ， 该 镜像 使 用 处 理 器 硬件 配 
套 的 指令 格式 。 

我 们 将 指令 集 的 定义 和 对 应 的 表达 方法 称 为 指令 集 架构 (ISA)。 换 句 话 说 ， 指 令 集 架构 
提供 了 语义 和 句法 的 定义 。IBM 公司 在 20 世纪 60 年 代 率先 采用 了 这 种 方法 ， 为 其 System/ 
360 系列 计算 机 开发 了 一 个 ISA 一 一 除 少数 例外 ， 该 系列 中 的 所 有 计算 机 共享 相同 的 基本 指 
令 集 ， 但 个 别 型 号 在 内 存 大 小 、 人 处理 器 速度 和 成 本 方面 差别 很 大 (差距 大 约 为 1: 30 )。 


5.4 操作 码 、 操 作 数 和 结果 


从 概念 上 讲 ， 每 条 指令 都 包含 三 个 部 分 : 指定 要 执行 的 确切 操作 、 要 使 用 的 值 和 放置 结 
果 的 位 置 。 

操作 码 。 术 语 操作 码 (opcode) 是 指 要 执行 的 确切 操作 。 操 作 码 是 一 个 数字 ， 当 设计 指 
令 集 时 ， 必 须 为 每 个 操作 分 配 一 个 唯一 的 操作 码 。 例 如 ， 操 作 码 5 可 能 分 配给 整数 加 法 ， 操 
作 码 12 可 能 分 配给 整数 减法 。 

操作 数 。 术 语 操作 数 (operand) 是 指 执行 操作 所 需 的 值 。 指 令 集 的 定义 规定 每 条 指令 确 
切 的 操作 数 数量 ， 以 及 可 能 的 值 ( 例 如 ， 加 法 操作 采用 两 个 有 符号 整数 )。 

结果 。 在 某 些 体系 结构 中 ， 可 以 通过 一 个 或 多 个 操作 数 指定 处 理 器 运算 结果 的 位 置 〈 例 
如 ， 算 术 运 算 的 结果 ); 在 其 他 情况 下 ， 结 果 的 位 置 是 自动 确定 的 。 


5.5 ”典型 的 指令 格式 


每 条 指令 都 表示 为 一 个 二 进 制 串 。 在 大 多 数 处 理 器 上 ， 指 令 以 操作 码 字段 开头 ， 接 着 是 
操作 数字 段 。 图 5.1 是 指令 的 一 般 格式 。 


Te 


图 5.1 ”处 理 器 使 用 的 通用 指令 格式 。 指 令 开始 处 的 操作 码 规定 了 后 续 操 作 数 的 含义 





5.6 可 变 长 度 指令 与 固定 长 度 指令 

问题 来 了 : 每 条 指令 的 长 度 应 该 相同 ( 即 占用 相同 的 字 节 数 ) 还 是 应 取决 于 操作 数 的 数 
量 和 类 型 ? 例如 ， 整 数 算术 运算 中 ， 加 法 或 减法 运算 需要 两 个 操作 数 ， 但 取 反 运算 只 需要 一 
个 操作 数 。 另 外 ， 处 理 器 可 以 处 理 多 种 尺寸 的 操作 数 (例如 ， 处 理 器 中 可 以 有 两 个 16 位 整 
数 的 加 法 指令 以 及 两 个 32 位 整数 的 加 法 指令 )。 指 令 长 度 是 否 应 该 不 同 ? 

我 们 用 “可 变 长 度 ” 来 表征 包含 不 同 指令 长 度 的 指令 集 ， 而 “固定 长 度 ” 用 于 表征 每 个 
指令 长 度 都 相同 的 指令 集 。 程 序 员 需 要 可 变 长 度 的 指令 ， 因 为 软件 通常 根据 每 个 对 象 的 大 小 
分 配 空间 (例如 ， 如 果 字 符 串 “ Hello” 和 “ bye ”出 现在 程序 中 ， 编 译 器 将 分 别 分 配 5 和 3 
个 字 节 )。 然 而 ， 从 硬件 角度 来 看 ， 可 变 长 度 指令 需要 复杂 的 硬件 来 读 取 和 和 解码。 相 比 之 下 ， 
定 长 指令 不 需要 那么 复杂 的 硬件 。 固 定 长 度 指令 允许 处 理 器 硬件 以 更 高 速度 运行 ， 因 为 硬件 
可 以 轻松 计算 下 一 条 指令 的 位 置 。 因 此 ， 许 多 处 理 器 强制 所 有 指令 的 长 度 相 同 ， 即 使 某 些 指 
令 不 需要 和 指令 长 度 一 样 长 。 重 点 在 于 : 
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件 更 加 简单 


在 指令 不 需要 所 有 操作 数 的 情况 下 ， 使 用 固定 长 度 指 令 的 处 理 器 会 如 何 处 理 ? 例如 ， 一 
个 固定 长 度 的 指令 集 如 何 兼容 加 法 和 取 反 运算 ? 有 趣 的 是 ， 硬 件 被 设计 为 忽略 给 定 操 作 不 需 
要 的 字段 。 因 此 ， 人 





5.7 通用 寄存 器 


正如 我 们 所 看 到 的 ， 寄 存 器 是 处 理 器 中 的 一 个 小 型 高 速 硬件 存储 设备 。 寄 存 器 具有 固 
定 大 小 (例如 32 或 64 位 ) 并 支持 两 个 基本 操作 : 读 取 和 存储 。 我 们 之 后 会 看 到 ， 寄 存 器 可 
以 在 操作 中 扮演 各 种 角色 ， 包 括 作 为 指令 指针 (也 称 为 程序 计数 器 )， 提 供 要 执行 的 下 一 条 
指令 的 地 址 。 现 在 ,我 们 关注 程序 员 熟 知 的 一 个 简单 情况 : 通用 寄存 器 用 于 临时 存储 机 制 。 
处 理 右 通常 具有 少量 的 通用 寄存 絮 (例如 32 个 )， 并 且 每 个 寄存 器 位 数 通 常 与 整数 的 长 度 一 
致 。 例 如 ， 在 提供 32 位 算术 运算 的 处 理 器 上 ， 每 个 通用 寄存 器 都 有 32 位 。 因 此 ， 一 个 通用 
寄存 器 可 以 保存 算术 指令 所 需 的 操作 数 或 这 种 指令 的 结果 。 

在 许多 体系 结构 中 ， 通 用 寄存 器 的 编号 从 0 到 N-1。 处 理 器 提供 的 指令 可 以 将 数据 存储 
到 指定 寄存 器 中 (或 从 中 读 取 )。 通 用 寄存 器 具有 与 内 存 相同 的 语义 : 读 取 操 作 返 回 之 前 存 
储 操作 时 存储 的 数据 。 类 似 地 ， 存 储 操作 用 新 的 数据 蔡 换 寄存 器 的 内 容 。 


5.8 浮 点 寄存 器 和 寄存 器 标识 


支持 浮 点 运算 的 处 理 器 通常 使 用 一 组 单独 的 寄存 器 来 保存 浮 点 值 。 通 用 寄存 器 和 浮 点 寄 
存 器 通常 都 是 从 零 开始 编号 ， 由 于 指令 根据 编号 决定 使 用 哪个 寄存 器 ， 所 以 会 产生 混淆 。 例 
如 ， 如 果 将 寄存 器 3 和 6 指定 为 整 型 指令 的 操作 数 ， 则 处 理 器 将 从 通用 寄存 器 中 提取 操作 
数 。 但 是 ， 如 果 将 寄存 器 3 和 6 指定 为 浮 点 指令 的 操作 数 ， 则 将 使 用 浮 点 寄存 器 。 


5.9 使 用 寄存 器 编程 


许多 处 理 器 要 求 在 执行 指令 之 前 将 操作 数 放置 在 通用 寄存 嚣 中。 一 些 处 理 器 还 将 指令 的 
结果 放 入 通用 寄存 器 中 。 因 此 ， 如 果 要 将 两 个 整数 变量 XY 和 了 相 加 ， 并 将 结果 放置 在 变量 Z 
中 ， 程 序 员 必 须 写 一 系列 将 值 移 至 相应 寄存 器 的 指令 。 例 如 ， 如 果 通 用 寄存 器 3、6 和 7 可 
用 ， 则 程序 可 能 包含 四 条 指令 ， 这 些 指令 按照 以 下 步骤 执行 : 

。 将 内 存 中 变量 元 的 值 加 载 到 寄存 器 3。 

。 将 内 存 中 变量 了 的 值 加 载 到 寄存 器 6。 

。 将 寄存 器 3 的 值 和 寄存 器 6 的 值 相 加 ， 然 后 将 结果 放 在 寄存 器 7 中 。 

e 将 寄存 器 7 的 值 的 副本 存储 到 内 存 中 的 变量 Z。 

我 们 将 看 到 ， 在 内 存 和 寄存 器 之 间 移 动 一 个 值 的 开销 较 大 ， 因 此 如 果 值 再 次 被 使 用 ， 则 
通过 在 寄存 器 中 保留 值 来 优化 性 能 。 由 于 处 理 器 只 包含 少量 的 寄存 器 ， 程 序 员 (或 编译 器 ) 


日 某 些 硬件 要 求 未 使 用 的 位 为 零 。 
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必须 随时 决定 保存 在 寄存 器 中 的 值 ， 其 他 值 保存 在 内 存 中 2? 。 选 择 寄 存 器 包含 哪些 值 的 过 程 
称 为 寄存 器 分 配 。 

许多 细节 使 寄存 器 分 配 复杂 化 。 一 个 常见 的 情况 是 一 条 指令 产生 一 个 大 的 结果 ， 称 为 扩 
展 值 。 例 如 ， 整 数 乘 法 可 以 产生 两 倍 于 操作 数 长 度 的 结果 。 一 些 处 理 器 提供 了 双 精 度 算术 
(例如 ， 如 果 标 准 整数 是 32 位 宽 ， 双 精度 整数 占 64 位 )。 

为 了 处 理 扩展 值 ， 硬 件 将 寄存 器 视 为 连续 的 。 比 如 ， 在 这 样 的 处 理 器 上 ， 一 个 将 双 精 度 
整数 读 取 到 寄存 器 的 指令 会 把 整数 的 一 半 放 在 寄存 器 4 中 ， 另 一 半 放 在 寄存 器 5 中 (即使 指 
令 中 没有 明确 地 提 到 ， 寄 存 器 5 的 值 也 会 改变 )。 选 择 要 使 用 的 寄存 器 时 ， 程 序 员 必 须 注意 
那些 要 将 扩展 数据 值 放 入 连续 寄存 器 的 指令 。 


5.10 ”寄存 器 存储 体 


额外 的 硬件 细节 使 寄存 器 分 配 复杂 化 : 一 些 体 系 结构 将 寄存 器 分 成 多 个 存储 体 ， 并 要 求 
一 条 指令 的 操作 数 来 自 不 同 的 存储 体 。 例 如 ， 在 使 用 两 个 寄存 器 存储 体 的 处 理 器 上 ， 整 数 加 
法 指令 可 能 要 求 两 个 操作 数 来 自 不 同 的 存储 体 。 

要 了 解 寄 存 器 存储 体 ， 我 们 必须 了 解 底层 硬件 。 实 质 上 ， 因 为 每 个 存储 体 都 有 单独 的 物 
理 访问 机 制 ， 并 且 这 些 机 制 同时 和 运行， 所 以 寄存 器 存储 体 可 以 让 硬件 更 快 地 和 运行。 因此， 当 
处 理 器 执行 访问 寄存 器 中 两 个 操作 数 的 指令 时 ， 可 以 同时 获得 两 个 操作 数 。 图 5.2 说 明了 这 
个 概念 。 






用 于 访问 寄存 器 
存储 体 的 单独 的 
硬件 单元 











图 5.2 将 8 个 寄存 器 分 为 两 个 存储 体 的 示意 图 。 硬 件 允 许 处 理 器 同时 访问 两 个 存储 体 


寄存 器 存储 体 给 程序 员 带 来 一 个 有 趣 的 后 果 : 可 能 无 法 永久 保存 寄存 器 中 的 数据 值 。 要 
理解 原因 ， 请 考虑 以 下 赋值 语句 ， 这 些 赋值 语句 在 传统 的 编程 语言 中 常见 ， 并 假设 我 们 想 要 
在 如 图 5.2 所 示 的 具有 两 个 寄存 器 存储 体 的 处 理 器 上 实现 这 些 语句 。 

<= 放生 
BB 
yh 全 

要 执行 第 一 个 加 法 运算 , X 和 了 必须 位 于 不 同 的 寄存 器 存储 体 中 。 假 设 X 位 于 存储 体 A 
的 寄存 器 中 , 了 位 于 存储 体 B 的 寄存 器 中 。 对 于 减法 运算 , Z 必须 位 于 与 X 不 同 的 寄存 器 存 
储 体 中 ( 即 Z 必须 位 于 存储 体 B 的 寄存 器 中 )。 对 于 第 三 个 赋值 ，Y 和 Z 必 须 在 不 同 的 存储 


日 寄存 器 溢出 (register spilling) 是 指 将 寄存 器 中 的 值 移 回 内 存 ， 寄 存 器 可 以 用 于 存储 其 他 数据 。 
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体 中 。 不 幸 的 是 ， 前 两 个 任务 意味 着 了 和 Z 位 于 同一 存储 体 。 因 此 ， 为 了 执行 三 条 指令 ,无 
法 为 X、Y、Z 分 配 寄存 器 。 我 们 将 这 种 情况 称 为 寄存 器 冲突 。 

寄存 器 冲突 发 生 时 会 发 生 什么 呢 ? 程序 员 必 须 重新 分 配 寄存 器 或 插入 一 个 复制 数据 的 指 
令 。 例如， 我 们 可 以 在 执行 最 终 加 法 运算 之 前 ,通过 插入 额外 的 指令 将 Z 的 值 复制 到 存储 体 
A 的 寄存 器 中 。 


5.11 复杂 指令 集 和 精简 指令 集 

计算 机 架构 师 将 指令 集 划分 为 两 大 类 ， 用 于 对 处 理 器 进行 分 类 9. 

e 复杂 指令 集 计算 机 (CISC)。 

e 精简 指令 集 计 算 机 (RISC)。 

CISC 处 理 器 通常 包含 许多 指令 (通常 为 数 百 条 )， 每 条 指令 都 可 以 执行 非常 复杂 的 计 
算 。Intel 的 x86 指令 集 被 归 类 为 CISC， 因 为 处 理 器 提供 了 数 百 条 指令 ， 包 括 需 要 很 长 时 间 
执行 的 复杂 指令 (例如 ， 处 理 内 存 中 的 图 形 的 指令 ,计算 正弦 和 余弦 函数 的 指令 )。 

与 CISC 相 比 ，RISC 处 理 器 受到 限制 。RISC 设计 不 采用 功能 复杂 的 指令 ， 而 是 追求 足 
够 支持 所 有 运算 的 最 小 指令 集 (例如 32 条 指令 )。 每 条 指令 执行 一 个 基本 的 计算 ， 而 不 是 允 
许 单条 指令 计算 复杂 函数 。 为 了 达到 最 高 速度 ，RISC 设计 将 指令 限制 为 固定 长 度 。 最 后 ， 
如 下 一 节 所 述 ，RISC 处 理 器 被 设计 为 在 一 个 时 钟 周期 内 执行 一 条 指令 8。ARM 有 限 公司 
和 MIPS 公司 已 经 分 别 创建 了 RISC 架构 ， 包 含有 限 条 均 可 在 一 个 时 钟 周 期 内 执行 的 指令 。 
ARM 设计 在 智能 手机 和 其 他 低 功 耗 设 备 中 特别 受 欢迎 。 

总 结 一 下 : 





5.12 ”RISC 设计 和 执行 流水 线 


我 们 说 一 个 RISC 处 理 器 每 个 时 钟 周 期 执行 一 条 指令 。 实 际 上 ， 更 准确 地 说 是 : RISC 
处 理 器 的 设计 使 得 处 理 器 可 以 在 每 个 时 钟 周期 完成 一 条 指令 。 要 理解 细微 的 差别 ， 了 解 硬件 
的 工作 方式 非常 重要 。 我 们 说 过 一 个 处 理 器 通过 首先 获取 一 条 指令 然后 执行 指令 来 执行 一 个 
取 指 - 执行 周期 。 事 实 上 ， 处 理 器 将 取 指 - 执行 周期 分 成 几 个 步 又， 通常 是 : 

e 取 下 一 条 指令 。 

e 解码 指令 并 从 寄存 器 中 取出 操作 数 。 

e 执行 由 操作 码 指定 的 算术 运算 。 

e 如 果 需 要 ， 执 行 存储 器 读 取 或 写 人 。 

。 将 结果 存 回 寄存 器 。 

为 了 实现 高 速 ，RISC 处 理 器 包含 并 行 硬件 单元 ， 每 个 单元 执行 上 面 列 出 的 一 个 步骤 。 
硬件 被 安排 在 多 级 流水 线 8 中 ， 这 意味 着 一 个 硬件 单元 的 结果 将 被 传递 到 下 一 个 硬件 单元 。 


日 大 多 数 工程 师 使 用 缩写 而 不 是 全 称 ， 读 作 sisk 和 risk。 
@ 回顾 第 2 章 ， 使 用 固定 间隔 触发 的 时 钟 脉冲 控制 数字 逻辑 。 
四 指令 流水 线 和 执行 流水 线 可 互 换 使 用 ， 以 指 代 在 取 指 -执行 周期 中 使 用 的 多 级 流水 线 。 
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图 5.3 展示 了 一 条 流水 线 。 


阶段 1 阶段 2 阶段 4 阶段 5 
一 条 指令 | 可 操作 数 || 二 算 ” [| 内 丰 en 


图 5.3 用 于 取 指 一 执行 周期 的 五 个 硬件 阶段 的 流水 线 例子 


阶段 3 





在 图 5.3 中 ,一 条 指令 在 流水 线 中 从 左 向 右 流 动 。 阶 段 1 取 指 令 ， 阶 段 2 检查 操作 码 ， 
等 等 。 每 来 一 个 时 钟 脉冲 ， 所 有 阶段 都 会 同时 向 右 传递 指令 。 因 此 ， 指 令 像 装配 线 一 样 运 
行 : 任何 时 候 ， 流 水 线 中 都 包含 五 条 指令 。 

由 于 所 有 的 阶段 都 可 以 并 行 操作 ， 因 此 流水 线 速度 会 提高 一 一 当 阶 段 3 执行 一 条 指令 
时 ， 阶 段 2 则 取出 下 一 条 指令 的 操作 数 。 于 是 ， 每 一 个 阶段 都 不 会 被 延迟 ， 因 为 指令 在 每 个 
时 钟 周期 内 总 是 已 经 准备 就 绪 。 表 5.4 展现 了 一 组 指令 如 何 通 过 五 阶段 流水 线 。 





1 
3 
4 
5 
6 
7 
8 


图 5.4 指令 通过 五 阶段 流水 线 。 一 旦 流水 线 被 填 满 ， 每 个 时 钟 周期 中 的 每 个 阶段 都 会 忙碌 


图 5.4 清楚 地 表明 ， 尽 管 RISC 处 理 器 不 能 在 一 个 时 钟 周期 内 完成 取 指 和 执行 指令 所 需 
的 所 有 步骤 ， 但 并 行 硬件 允许 处 理 器 在 每 个 时 钟 周期 完成 一 条 指令 。 总 结 一 下 : 
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5.13 ”流水 线 和 指令 延迟 
我 们 说 指令 流水 线 对 于 程序 员 是 透明 的 ， 因 为 指令 集 不 包含 对 流水 线 的 任何 显 式 引用 。 
也 就 是 说 ， 硬 件 的 构造 决定 无 论 是 否 使 用 流水 线 ， 程 序 的 结果 都 是 相同 的 。 虽 然 透 明度 可 
能 是 一 个 优势 ， 但 它 也 可 能 是 一 个 缺点 : 一 个 不 懂 流 水 线 的 程序 员 可 能 会 无 意 中 降低 程序 
效率 。 
为 了 理解 流水 线 对 编程 选择 的 影响 ， 考 虑 一 个 程序 ， 它 包含 两 条 连续 的 指令 ， 执 行 一 个 
加 法 和 一 个 减法 ， 操 作 数 和 计算 结果 均 放 在 寄存 器 中 ， 分 别 标记 为 A、B、C、D 和 E。 
指令 K: C 二 addAB 
指令 K+1: D < subtract EC 
尽管 指令 玉 可 以 从 头 到 尾 通过 流水 线 ， 但 指令 K+1 会 遇 到 问题 ， 因 为 操作 数 C 不 能 及 
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时 准备 好 。 也 就 是 说 ， 在 获取 指令 K+1 的 操作 数 之 前 ， 硬 件 必须 等 待 指令 天 完成 。 我 们 说 
流水 线 的 某 个 阶段 停顿 ， 以 等 待 操作 数 就 绪 。 图 5.5 展示 了 流水 线 停顿 期 间 发 生 的 情况 。 


阶段 2 阶段 3 阶段 4 阶段 5 
取 操 作 数 。 算术 人 逻辑 运算 。 访 存 写 结果 
指令 K-4 
指令 K-3 
(指令 K+1 ) 指令 K-2 
(指令 K+2) (指令 K+1) 2 指令 K-1 
(指令 K+2) (指令 K+1) 指令 K 
(指令 K+2) 指令 K+1 
指令 K+3 指令 K+2 指令 K+1 
指令 K+4 ”指令 K+3 指令 K+2 
指令 K+5 ”指令 K+4 指令 K+3 2 指令 K+1 
指令 K+6 ”指令 K+5 指令 K+4 指令 K+2 
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图 5.5 流水 线 停顿 的 示意 图 。 在 指令 天 的 操作 数 就 绪 之 前 ， 指 令 K+1 不 能 继续 


图 5.5 显示 了 流水 线 正常 运行 到 时 钟 周期 3， 此 时 指令 K+1 已 达到 阶段 2。 回想 一 下 ， 
阶段 2 是 从 寄存 器 获取 操作 数 。 在 我 们 的 例子 中 ， 直 到 指令 天 将 其 结果 写 人 寄存 器 之 前 ， 
指令 K+1 的 其 中 一 个 操作 数 不 可 用 。 在 指令 天 完成 之 前 ， 流 水 线 必 须 停 顿 。 在 上 面 的 代 
码 中 ， 因 为 C 的 值 没有 被 计算 出 来 ， 所 以 阶段 2 不 能 获取 C 的 值 。 因 此 阶段 1 和 阶段 2 在 
时 钟 周期 4 和 5 期间 保持 停顿 。 在 时 钟 周期 6 期 间 ， 阶 段 2 可 以 获取 操作 数 ， 流 水 线 继续 
运行 。 

图 5.5 中 最 右边 的 一 列 显示 停顿 对 性 能 的 影响 : 流水 线 的 最 后 一 个 阶段 在 时 钟 周期 6、7 
和 8 中 不 产生 任何 结果 。 如 果 没 有 发 生 停顿 ， 指 令 K+1 将 在 时 钟 周期 6 完成 ， 但 停顿 意味 
着 该 指令 直到 时 钟 周期 9 才 完 成 。 

为 了 描述 从 引起 停顿 时 刻 到 输出 停止 时 刻 之 间 的 延迟 ， 我们 称 一 个 气泡 通过 流水 线 。 当 
然 ， 气泡 仅 对 于 观察 流水 线性 能 的 人 来 说 很 明显 ， 因 为 正确 性 不 受 影响 。 也 就 是 说 ,一 个 阶 
段 完成 后 ， 指 令 总 是 直接 进入 下 一 阶段 ， 这 意味 着 所 有 指令 都 按 指 定 的 顺序 执行 。 


5.14 引起 流水 线 停顿 的 其 他 原因 


除了 等 待 操作 数 之 外 ， 当 处 理 器 执行 任何 会 延迟 处 理 或 中 断 通常 流程 的 指令 时 ， 流 水 线 
也 可 能 停顿 。 例 如 ， 处 理 器 进行 如 下 操作 时 可 能 会 发 生 停顿 : 

e 访问 外 部 存储 。 

e 调用 协 处 理 器 。 

e 分 支 到 新 的 位 置 。 

e 调用 子 程序 。 

最 复杂 的 处 理 器 包含 额外 的 硬件 以 避免 停顿 。 例 如 ， 某 些 处 理 器 包含 两 条 一 样 的 流水 
线 ， 如 果 分 支 发 生 ， 它 允许 处 理 器 开始 解码 即将 执行 的 指令 ; 如 果 分 支 不 发 生 ， 则 直接 执行 
指令 。 这 两 个 副本 一 直 运行 ， 直 到 可 以 执行 分 支 指令 。 那 时 ， 硬 件 知 道 要 跟随 哪 条 流水 线 的 
副本 ， 另 一 个 则 被 忽略 。 其 他 处 理 器 包含 特殊 的 快捷 硬件 ， 可 将 结果 的 拷贝 传递 回 前 一 个 流 
水 线 阶段 。 
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5.15 ”对 程序 员 的 影响 


为 了 达到 最 高 速度 ， 编 写 RISC 架构 的 程序 需要 适应 指令 流水 线 。 例 如 ， 程 序 员 应 该 避 
免 引 入 不 必要 的 分 支 指令 。 同 样 ， 不 要 在 之 后 的 指令 中 立即 引用 结果 寄存 器 ， 而 是 可 以 延迟 
引用 。 例 如 ， 图 5.6 显示 了 代码 如 何 重新 排列 以 更 快运 行 。 

CoaddAB C 全 add A B 

De Subtract E C F 人 -add G HH 

F¢-addGH M -addKL 

J Subtract I F D ¢ subtract E C 

MaddKL J ¢ Subtract I F 

P 人 - subtract M N P ¢ subtract M N 
a) b) 


图 5.6 a) 指令 列表 ; b) 重新 排序 以 在 流水 线 中 更 快运 行 的 指令 序列 。 减 少 流水 线 停顿 以 提升 速度 


在 图 5.6 中 ， 优 化 的 程序 将 引用 和 计算 分 开 。 例 如 ， 在 原始 的 程序 中 ， 第 二 条 指令 引用 
由 前 一 条 指令 产生 的 值 C。 因 此 ， 第 一 条 和 第 二 条 指令 之 间 出 现 停顿 。 将 减法 移 到 程序 中 靠 
后 的 地 方 可 以 让 处 理 器 继续 运行 而 不 会 出 现 停顿 。 

当然 ， 程 序 员 可 以 选择 将 流水 线 视 为 自动 优化 而 不 是 编程 负担 。 幸 运 的 是 ， 大 多 数 程序 
员 不 需要 手动 执行 流水 线 优 化 ， 高 级 语言 的 编译 器 会 自动 执行 优化 。 








5.16 编程、 停顿 和 无 操作 指令 


在 某 些 情况 下 ， 程 序 中 的 指令 无 法 通过 重新 排列 避免 停顿 。 在 这 种 情况 下 ， 程 序 员 可 以 
记录 停顿 ， 以 便 任 何 阅读 代码 的 人 都 能 理解 停顿 的 发 生 。 如 果 程 序 被 修改 ， 此 类 文档 特别 有 
用 ， 因 为 执行 修改 的 程序 员 可 以 重新 考虑 并 尝试 重新 排列 指令 以 防止 停顿 。 

程序 员 应 该 如 何 记录 一 个 停顿 ? 有 一 种 技术 是 显而易见 的 : 插入 解释 停顿 原因 的 注释 。 
但 是 ， 大 多 数 代码 是 由 编译 器 生成 的 ， 只 有 在 出 现 问 题 或 需要 进行 特殊 优化 时 才能 被 人 读 
取 。 在 这 种 情况 下 ， 可 以 使 用 另 一 种 技术 : 在 代码 中 发 生 停顿 的 地 方 插入 额外 的 指令 。 额 
外 的 指令 指示 了 这 样 的 位 置 ， 即 插入 项 可 以 不 影响 流水 线 。 当 然 ， 额 外 的 指令 必须 是 无 害 
的 一 一 它们 不 能 改变 寄存 器 中 的 值 或 以 其 他 方式 影响 程序 。 在 大 多 数 情况 下 ， 硬 件 提供 了 解 
决 方案 : 无 操作 指令 (no-op)。 也 就 是 说 ， 除 了 占用 时 间 以 外 ， 什 么 都 不 做 。 重 点 是 : 
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5.17 转发 


如 上 所 述 ， 一 些 硬件 有 特殊 的 设施 来 提高 指令 流水 线 的 性 能 。 例 如 ,算术 逻辑 运算 单元 
可 以 使 用 称 为 转发 的 技术 来 解决 连续 的 算术 指令 传递 结果 的 问题 。 
为 了 理解 转发 如 何 工作 ， 考 虑 操作 数 A、B、C、D 和 EE 在 寄存 器 中 的 两 条 指令 的 示例 : 
指令 K: C 二 addAB 
指令 K+l: D 二 subtractE C 
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我 们 说 这 样 一 个 序列 导致 了 流水 线 处 理 器 的 停顿 。 但 是 ， 实 现 转发 的 处 理 器 可 以 通过 安 
排 硬件 检测 依赖 关系 并 自动 将 C 的 值 从 指令 天 直接 传递 到 指令 K+1 来 避免 停顿 。 也 就 是 说 ， 
指令 K 中 算术 人 逻辑 运算 单元 的 输出 副本 在 指令 K+1 中 被 直接 转发 到 算术 逻辑 运算 单元 的 输 
入 端 。 结 果 ， 指 令 继续 填充 流水 线 ， 并 且 不 会 发 生 停顿 。 


5.18 操作 类 型 
当 计 算 机 架构 师 讨论 指令 集 时 ， 将 指令 分 成 几 个 基本 类 别 。 图 5.7 列 出 了 一 个 可 能 的 
划分 。 


* 整数 运算 指令 。 
* 浮 点 运算 指令 。 
* 逻辑 运算 指令 (也 称 为 布尔 操作 )。 


“ 数据 访问 和 传输 指令 。 

。 有 条 件 和 无 条 件 的 分 支 指令 。 
* 处 理 器 控制 指令 。 

* 图 形 指 令 。 





图 5.7 用 于 划分 指令 类 别 的 示例 。 通 用 处 理 器 包含 上 述 所 有 类 别 的 指令 


5.19 程序 计数 器 、 取 指 - 执行 以 及 分 支 


回想 第 4 章 ， 每 个 处 理 器 都 实现 了 一 个 基本 的 取 指 -执行 周期 。 在 这 个 周期 中 ， 处 理 器 
中 的 控制 硬件 会 自动 移动 指令 且 它 执行 完 一 条 指令 ， 处 理 器 就 会 在 取出 下 一 条 指令 之 
前 自动 离开 当前 指令 。 为 了 实现 取 指 - 执行 周期 并 移动 到 下 一 条 指令 ， 处 理 器 使 用 一 个 称 为 
指令 指针 或 程序 计数 器 〈 这 两 个 术语 是 相同 的 ) 的 专用 内 部 寄存 器 。 

当 取 指 - 执行 周期 开始 时 ， 程 序 计 数 需 包含 要 执行 的 指令 的 地 址 。 在 获取 指令 后 ， 程 序 
计数 器 更 新 为 下 一 条 指令 的 地 址 。 在 每 个 取 指 - 执行 周期 中 更 新 程序 计数 器 ， 意 味 着 处 理 器 
将 自动 在 存储 器 的 连续 指令 序列 中 移动 。 算 法 5.1 指定 取 指 - 执行 周期 如 何在 连续 的 指令 序 
列 中 移动 。 





算法 5.1 取 指 - 执行 周期 
为 程序 计数 器 分 配 一 个 初始 程序 地 址 。 不 断 重复 { 
取 指 : 从 程序 计数 器 给 出 的 位 置 访问 程序 的 下 一 步 。 


将 一 个 内 部 地 址 寄存 器 A 设置 为 刚 获取 指令 的 下 一 条 的 地 址 。 
执行 : 执行 程序 的 步骤 。 
将 地 址 寄存 器 A 的 内 容 复 制 到 程序 计数 器 。 





该 算法 使 我 们 能 够 理解 分 支 指令 如 何 工作 。 有 两 种 情况 : 绝对 分 支 和 相对 分 支 。 绝 对 分 
支 计算 一 个 内 存 地 址 ， 该 地 址 指定 要 执行 的 下 一 条 指令 的 位 置 。 通 常 ， 绝 对 分 支 指令 被 称 
为 跳 转 。 在 执行 步 又 中 ， 跳 转 指 令 计算 一 个 地 址 并 将 其 加 载 到 算法 5.1 指定 的 内 部 寄存 器 A 
中 。 在 取 指 - 执行 周期 结束 时 ， 硬 件 将 该 值 复制 到 程序 计数 器 中 ， 这 意味 着 地 址 将 用 于 获取 
下 一 条 指令 。 例 如 ， 绝 对 分 支 指令 


58 ”党 二 部 分 处 理 器 


jump 0x05DE 


使 处 理 器 将 0x05DE 加 载 到 内 部 地 址 寄存 器 中 ， 该 寄存 器 在 提取 下 一 条 指令 之 前 被 复制 到 程 
序 计 数 器 中 。 换 句 话说， 下 一 个 要 提取 的 指令 将 位 于 内 存 地址 0x05DE 处 。 

与 绝对 分 支 指令 不 同 ， 相 对 分 支 指令 不 指定 确切 的 存储 器 地 址 。 相 反 ， 相 对 分 支 指令 计 
算 相 对 于 程序 计数 器 值 的 正 负 增 量 。 例 如 ， 指 令 

br +8 

指定 分 支 到 当前 位 置 之 后 8 个 字 节 的 位 置 ( 即 大 于 程序 计数 器 的 当前 值 )。 

为 了 实现 相对 分 支 ， 处 理 器 将 分 支 指令 中 的 操作 数 和 程序 计数 器 值 相 加 ， 并 将 结果 存放 
在 内 部 地 址 寄存 器 A 中 。 例 如 ， 如 果 相 对 分 支 计算 出 -12， 则 下 一 条 要 执行 的 指令 将 在 当 
前 指令 之 前 12 个 字 节 的 位 置 。 编 译 器 可 能 会 在 短 while 循环 中 使 用 相对 分 支 。 

大 多 数 处 理 器 还 提供 调用 子 程序 的 指令 ， 通 常 为 jsr ( 跳 转 子 程序 )。 就 取 指 - 执行 周 
期 而 言 ，jsr 指令 的 操作 与 分 支 指令 相似 ， 但 有 一 个 关键 区 别 : 在 分 支 发 生 之 前 ，jsr 指 
令 保存 地 址 寄存 器 A 的 值 。 当 执行 完成 时 ， 子 例 程 返回 调用 它 的 程序 。 为 了 实现 这 一 操作 ， 
子 程序 执行 一 条 绝对 分 支 ， 跳 转 回 保存 的 地 址 。 因 此 ， 当 子 程序 结束 时 ， 取 指 - 执行 周期 在 
jsr 的 下 一 条 指令 处 重新 开始 。 


5.20 ” 子 程 序 调用 、 参 数 以 及 寄存 器 窗口 


高 级 语言 使 用 子 程序 调用 指令 (如 jsr) 来 实现 子 程序 或 函数 调用 。 调 用 程序 提供 了 一 
组 参数 供 子 程序 计算 时 使 用 。 例 如 ， 函 数 调用 cos (3.14159 ) 将 浮 点 常量 3.14159 作为 
参数 。 

处 理 器 之 间 的 主要 区 别 之 一 在 于 底层 硬件 将 参数 传递 给 子 程序 的 方式 。 一 些 体 系 结构 使 
用 内 存 一 一 在 调用 之 前 参数 存储 在 内 存 的 堆栈 中 ， 子 程序 在 引用 时 从 堆栈 中 取 值 。 在 其 他 体 
系 结构 中 ， 处 理 器 使 用 通用 寄存 器 或 专用 寄存 器 来 传递 参数 。 

使 用 专用 寄存 器 或 通用 寄存 器 传递 参数 比 在 存储 器 中 使 用 堆栈 要 快 得 多 ， 因 为 寄存 器 是 
处 理 器 中 本 地 存储 的 一 部 分 。 由 于 很 少 有 处 理 器 提供 专用 寄存 器 用 于 参数 传递 ， 所 以 通常 使 
用 通用 寄存 器 。 不 幸 的 是 ， 通 用 寄存 器 不 能 独占 地 用 于 传递 参数 ， 因 为 它们 也 需要 用 于 其 他 
计算 (例如 ,保存 用 于 算术 运算 的 操作 数 )。 因 此 ， 程 序 员 需 要 权衡 : 使 用 通用 寄存 器 传递 
参数 可 以 提高 子 程序 调用 的 速度 ， 但 使 用 寄存 器 来 保存 数据 值 可 以 提高 一 般 计 算 的 速度 。 因 
此 ， 程 序 员 必须 选择 哪些 参数 保存 在 寄存 器 中 ， 哪 些 存储 在 内 存 中 9 。 

一 些 处 理 器 包含 参数 传递 优化 ， 称 为 寄存 器 窗口 。 尽 管 处 理 器 具有 大 量 的 通用 寄存 器 ， 
但 寄存 器 硬件 只 能 在 某 一 时 刻 开放 寄存 器 的 一 个 子 集 。 该 子 集 称 为 窗口 。 每 次 调用 子 程序 
时 ， 窗 口 自动 移动 ， 并 在 子 程序 返回 时 移 回 。 更 重要 的 是 ， 窗 口 可 用 于 程序 和 子 程序 的 重 
秋 一 一 调用 程序 可 见 的 某 些 寄 存 器 对 子 程序 同样 可 见 。 调 用 者 在 调用 子 程序 之 前 将 寄存 器 
中 的 参数 放置 在 重要 的 寄存 器 中 ， 子 程序 从 这 些 寄 存 器 中 取 值 。 图 5.8 展现 了 寄存 器 窗口 的 
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日 附录 C 描 述 了 x86 架构 使 用 的 调用 顺序 ， 附 录 D 解释 了 ARM 体系 结构 如 何在 寄存 器 和 内 存 中 传递 一 些 
参数 。 
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子 程序 被 调用 之 前 其 他 不 可 用 的 
的 寄存 器 0~7 寄存 器 





子 程序 运行 时 的 
不 可 用 的 寄存 器 0 一 7 不 可 用 的 


ee 
b) 


图 5.8 寄存 器 窗口 的 示意 图 : a) 子 程序 调用 之 前 ; b) 在 调用 期 间 。A、B、C 和 DD 对 应 于 传递 的 参数 


图 5.8 中 ， 硬 件 有 16 个 寄存 器 ， 但 任何 时 候 只 有 8 个 寄存 器 可 用 ， 其 他 寄存 器 不 可 用 。 
程序 一 直 可 以 引用 编号 为 0 到 窗口 大 小 减 1 之 间 的 寄存 器 (在 本 例 中 为 0 到 7 )。 当 调用 子 
程序 时 ， 硬 件 通过 滑动 窗口 来 更 改 可 见 的 寄存 器 组 。 在 这 个 例子 中 ， 调 用 前 ， 可 见 的 是 编 
号 为 4 到 7 的 寄存 器 ， 调 用 后 ， 可 见 的 是 编号 为 0 到 3 的 寄存 器 。 因 此 ， 调 用 程序 将 参数 A 
到 DD 放 入 寄存 器 4 到 7 中 ， 而 子 程序 在 寄存 器 0 到 3 中 查找 参数 。 值 为 x; 的 寄存 器 仅 对 调 
用 程序 可 见 。 寄 存 器 窗口 方法 的 优点 是 不 在 当前 窗口 寄存 器 中 保留 它们 的 值 。 所 以 ， 当 被 调 
用 子 程序 返回 时 ， 窗 口 将 会 回 退 ， 并且 具 有 值 x; 的 寄存 器 将 与 调用 之 前 的 完全 相同 。 

图 5.8 使 用 一 个 小 窗口 (8 个 寄存 器 ) 来 简化 示意 图 。 实 际 上 ， 使 用 寄存 器 窗口 的 处 理 
器 通常 具有 更 大 的 窗口 。 例 如 ，Sparc 架构 有 128 或 144 个 物理 寄存 器 ， 窗 口 大 小 为 32 个 寄 
存 器 ; 然而 ， 窗 口中 只 有 8 个 寄存 器 重 又 ( 即 只 有 8 个 寄存 器 可 用 于 传递 参数 ) 。 


5.21 一 个 示例 指令 集 


示例 指令 集 将 有 助 于 阑 明 上 述 概念 。 我 们 选择 MIPS 处 理 器 作为 例子 有 两 个 原因 。 首 
先 ，MIPS 处 理 器 在 柑 入 式 系 统 中 很 受 欢迎 。 其 次 ，MIPS 指令 集 是 RISC 处 理 器 提供 的 指令 
集 的 典型 例子 。 图 5.9 列 出 了 MIPS 指令 集中 的 指令 。 








整数 加 法 
Subtract 整数 减法 
add immediate 整数 加 法 (寄存 器 + 常量 ) 
add unsigned 无 符号 整数 加 法 
subtract unsigned 无 符号 整数 减法 
add immediate unsigned 无 符号 和 常数 加 法 
move from coprocessor 访问 协 处 理 器 寄存 器 
multiply 整数 乘法 
multiply unsigned 无 符号 整数 乘法 
divide 整数 除法 
divide unsigned 无 符号 整数 除法 
move from Hi 访问 高 位 寄存 器 
move from Lo 访问 低位 寄存 器 


图 5.9 一 个 示例 指令 集 ， 列 出 了 由 MIPS 处 理 器 提供 的 说 明 
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处 理 过 


逻辑 ( 布尔 运算 ) 


and 

OT 

and immediate 
or immediate 
shift left logical 
shift right logical 


数据 传输 


load word 
store word 
load upper immediate 


move from coproc. register 


条 件 分 支 


branch equal 

branch not equal 

set on less than 

set less than immediate 
set less than unsigned 


set less than immediate 


非 条 件 分 支 


MIPS 处 理 器 包含 32 个 通用 寄存 器 ， 大 多 数 指令 要 求 操作 数 和 结果 存放 在 寄存 器 中 。 例 
如 ， 加 法 指令 需要 三 个 操作 数 ， 用 寄存 器 存储 一 一 该 指令 将 前 两 个 寄存 器 的 内 容 相 加 并 将 结 
果 放 入 第 三 个 寄存 器 。 

除了 图 5.9 中 列 出 的 整数 指令 之 外 , MIPS 体系 结构 还 为 单 精度 ( 即 32 位 ) 和 双 精 度 〈 即 
64 位 ) 浮 点 值 定义 了 一 组 浮 点 指令 。 硬 件 提供 了 一 组 32 个 浮 点 寄存 器 。 虽 然 它 们 的 编号 从 


jump 
jump register 


jump and link 


逻辑 与 (两 个 寄存 器 ) 
逻辑 或 (两 个 寄存 器 ) 
寄存 器 和 常量 的 与 
寄存 器 和 常量 的 或 
寄存 器 向 左 移 N 位 
寄存 器 向 右 移 N 位 


从 存储 器 加 载 到 寄存 器 
将 寄存 器 的 值 存 人 内 存 
将 常数 放 在 寄存 器 的 高 16 位 中 
从 协 处 理 器 中 获取 一 个 值 


如 果 两 个 寄存 器 的 值 相同 则 分 支 
如 果 两 个 寄存 器 的 值 不 同 则 分 支 
比较 两 个 寄存 器 

比较 寄存 器 和 常数 
比较 无 符号 寄存 器 

比较 无 符号 寄存 器 和 常数 


跳 转 到 目标 地 址 
跳 转 到 寄存 器 存储 的 地 址 
程序 调用 





图 5.9 ( 续 ) 


0 到 31， 但 浮 点 寄存 器 完全 独立 于 通用 寄存 器 。 


为 了 处 理 双 精 度 值 ， 浮 点 寄存 器 成 对 运行 。 也 就 是 说 ， 浮 点 指令 中 只 能 指定 偶数 浮 点 寄 
存 器 作为 操作 数 或 目标 一 一 硬件 将 指定 的 寄存 器 和 下 一 个 奇数 寄存 器 作为 组 合 存储 单元 来 保 


存 双 精度 值 。 图 5.10 总 结 了 MIPS 浮 点 指令 集 。 


FPadd 
FP subtract 


FP multiply 
FP divide 
FP add double 


图 5.10 由 MIPS 架构 定义 的 浮 点 (FP) 指令 ， 双 精度 值 占用 两 个 连续 的 浮 点 寄存 器 
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FP subtract double 双 精 度 减 法 
FP multiply double 双 精 度 乘法 
FP divide double 双 精 度 除 法 
数据 传输 
load word coprocessor 将 值 加 载 到 FP 寄存 器 中 


store word coprocessor 将 FP 寄存 器 的 值 存储 到 内 存 中 
条 件 分 支 

branch FP true 如 果 FP 条 件 为 真 则 分 支 

branch FP false 如 果 FP 条 件 为 假 则 分 支 

FP compare single 比较 两 个 FP 寄存 器 

FP compare double 比较 两 个 双 精 度 值 





图 5.10 ( 续 ) 


5.22 ” 极 简化 的 指令 集 


看 起 来 图 5.9 中 列 出 的 说 明 不 够 充分 ， 需 要 额外 的 说 明 。 例 如 ，MIPS 架构 不 包括 将 寄 
存 器 内 容 复制 到 另 一 个 寄存 器 的 指令 ， 也 不 包括 可 以 将 内 存 值 与 寄存 器 内 容 相 加 的 指令 。 要 
理解 这 些 选择 ， 了 解 MIPS 指令 集 支持 的 两 个 原则 非常 重要 : 速度 和 极 简 主义 。 首 先 ， 基 本 
指令 集 经 过 精心 设计 以 确保 高 速 运行 (即使 用 流水 线 时 ， 体 系 结构 具有 每 个 时 钟 周期 都 能 完 
成 一 条 指令 的 特性 )。 其 次 ， 指 令 集 是 极 简 的 一 一 它 包 含 处 理 标准 计算 的 尽 可 能 少 的 指令 。 
限制 指令 数量 是 设计 的 关键 点 ， 选 择 32 条 指令 意味 着 一 个 操作 码 只 需要 5 位 ， 并 且 不 会 浪 
费 这 些 位 的 组 合 。 

MIPS 架构 的 一 个 特征 (也 被 用 于 其 他 RISC 处 理 器 ) 有 助 于 实现 极 简 主义 一 一 快速 访问 
零 值 。 在 MIPS 的 情况 下 ， 寄存器 0 提供 了 寄存 器 被 保留 并 且 值 始终 是 零 的 机 制 。 

因此 ， 为 了 测试 寄存 器 是 否 为 零 ， 可 以 将 该 值 与 寄存 器 0 进行 比较 。 同 样 ， 寄 存 器 0 可 
以 用 于 任何 指令 。 例 如 ， 要 将 一 个 值 从 一 个 寄存 器 复制 到 另 一 个 寄存 器 ， 可 以 使 用 加 法 指 
令 ， 其 中 两 个 操作 数 中 的 一 个 为 寄存 器 0。 


5.23 正 交 性 原则 


除了 上 面 讨论 的 指令 集 的 技术 方面 之 外 ， 架 构 师 还 必须 考虑 设计 的 美学 。 特 别 是， 架构 
师 追 求 优雅 。 优 雅 与 人 类 的 认 知 有 关 : 指令 集 对 程序 员 来 说 如 何 ? 指令 如 何 组 合 起 来 处 理 常 
见 的 编程 任务 ?指令 是 否 平衡 (如果 该 组 包括 右 移 ， 是 否 也 包括 左 移 ) ? 优雅 需要 主观 判断 。 
然而 ,使 用 指令 集 的 经 验 往 往 可 以 帮助 工程 师 和 程序 员 认 识 和 欣赏 优雅 。 

优雅 的 一 个 特别 方面 ( 即 正 交 性 )， 专 注 于 消除 指令 之 间 不 必要 的 重复 和 重 倒 。 我 们 说 
如 果 每 条 指令 执行 一 个 独特 的 任务 ， 则 指令 集 是 正 交 的 。 正 交 指 令 集 对 于 程序 员 来 说 具有 重 
要 优势 : 正 交 指令 更 容易 理解 ， 并 且 程 序 员 不 需要 在 执行 相同 任务 的 多 条 指令 中 进行 选择 。 
正 交 性 非常 重要 ， 已 成 为 处 理 器 设计 的 一 般 原则 。 总 结 一 下 : 
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5.24 条 件 码 和 条 件 分 支 


在 许多 处 理 器 上 ， 执 行 一 条 指令 生成 一 个 状态 ， 状 态 会 存储 在 一 个 内 部 的 硬件 装置 中 。 
之 后 的 指令 可 以 使 用 这 些 状 态 来 决定 如 何 继续 。 例 如 ， 当 它 执行 算术 指令 时 ，ALU 设置 一 
个 内 部 寄存 器 ， 称 为 条 件 码 ， 包 含 记录 结果 是 正 数 、 负 数 、 零 还 是 发 生 算术 溢出 的 位 。 在 算 
术 运 算 之 后 的 条 件 分 支 指令 可 以 测试 一 个 或 多 个 条 件 码 位 ， 并 使 用 结果 确定 是 否 分 支 。 

我 们 用 一 个 例子 来 阐明 如 何 使 用 条 件 码 机 制 8。 为 了 理解 这 个 范例 ， 考 虑 用 于 测试 两 个 
值 是 否 相等 的 程序 。 为 简单 起 见 ， 假 设 目标 是 ， 如 果 寄 存 器 4 的 内 容 不 等 于 寄存 器 5 的 内 
容 ， 则 将 寄存 器 3 设置 为 零 。 图 5.11 包含 示例 代码 。 


cmp Ir4，5 # 比较 寄存 器 4 和 5， 并 设置 条 件 码 
be labl  # 如 果 条 件 码 相等 分 支 到 labl 


mov r3,，0 # 将 0 存 入 寄存 器 3 中 
labl: … 程 序 在 这 个 位 置 继续 


图 5.11 使 用 条 件 码 的 例子 。ALU 操作 设置 条 件 码 ， 后 面 的 条 件 分 支 指令 测试 条 件 码 





5.25” ”小结 


每 个 处 理 器 定义 一 个 指令 集 ， 该 集合 由 处 理 器 所 支持 的 操作 组 成 ， 其 选择 是 程序 员 的 便 
利 性 和 硬件 效率 之 间 的 折 中 。 在 一 些 处 理 器 中 ， 每 条 指令 的 长 度 相 同 ， 而 另 一 些 处 理 器 的 指 
令 长 度 不 同 。 

大 多 数 处 理 器 都 包含 少量 通用 寄存 器 组 ， 它 们 是 高 速 存储 机 制 。 要 使 用 寄存 器 编程 ， 需 
要 将 内 存 中 的 值 加 载 到 寄存 器 中 ， 执 行 计算 ， 并 将 寄存 器 的 结果 存储 到 内 存 中 。 为 了 优化 性 
能 ， 程 序 员 把 将 再 次 使 用 的 值 保 留 在 寄存 器 中 。 在 某 些 体系 结构 中 ， 寄 存 器 被 分 为 多 个 存储 
体 ， 程 序 员 必须 确保 每 条 指令 的 操作 数 来 自 不 同 的 存储 体 。 

处 理 器 可 以 分 为 CISC 和 RISC 两 大 类 ， 取决 于 它们 是 否 包 含 许多 复杂 的 指令 或 一 组 最 
简单 的 指令 。RISC 体系 结构 使 用 指令 流水 线 确保 每 个 指令 都 可 以 在 一 个 时 钟 周期 内 完成 。 
程序 员 可 以 通过 重新 编排 代码 来 优化 性 能 ， 以 避免 流水 线 停顿 。 

为 了 实现 条 件 执行 (例如 ，if-then-else), 许多 处 理 器 依赖 于 条 件 码 机 制 一 一 ALU 
指令 设置 条 件 码 ， 并 且 之 后 的 指令 (条件 分 支 ) 测试 条 件 码 。 


习题 
5.1 在 调试 程序 时 ， 程 序 员 使 用 一 个 工具 来 显示 内 存 的 内 容 。 当 程序 员 将 工具 指向 存放 指令 的 内 存 位 
置 时 ， 该 工具 将 打印 三 个 带 有 标签 的 十 六 进 制 值 : 
OC=0x43 OP1=0xff00 OP2=0x0324 
这 些 标签 (OC、OP1、OP2 ) 的 缩写 是 什么 ? 
5.2 ”如 果 计 算 机 上 的 算术 硬件 要 求 操作 数 在 不 同 的 (寄存 器 ) 存储 体 中 ， 那 么 需要 什么 指令 序列 来 计 
算 以 下 内 容 ? 


A B-C 
Qe A*C 
WW<- QOQ+A 
ZW-Q 


日 第 9 章 介绍 了 使 用 条 件 码 进行 编程 并 提供 了 更 多 示例 。 


5.3 


5.4 


$5 


5.6 


5:7 


5.8 
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假设 你 正在 为 一 台 计 算 机 设计 一 个 指令 集 ， 可 以 执行 布尔 与 、 或 、 非 和 异 或 操作 。 分 配 操作 码 并 
指出 每 条 指令 的 操作 数 。 当 你 的 指令 被 存储 在 内 存 中 时 ， 需 要 多 少 位 来 保存 操作 码 ? 

如 果 计 算 机 可 以 对 16 位 整数 、32 位 整数 、32 位 浮 点 值 和 64 位 浮 点 值 进行 加 、 减 、 乘 、 除 ， 则 
需要 多 少 个 不 同 的 操作 码 ? (提示 : 假定 为 每 个 操作 和 每 个 数据 大 小 设置 一 个 操作 码 。) 

一 名 计算 机 设计 师 吹 咕 说 能 够 设计 一 台 计 算 机 ， 其 中 每 条 指令 都 占 32 位 。 这 种 设计 的 优点 是 
什么 ? 

将 ARM 公司 拥有 的 ARM 体系 结构 、Oracle 公司 拥有 的 SPARC 体系 结构 和 英特尔 公司 拥有 的 英 
特 尔 架构 分 类 为 CISC 或 RISC。 

考虑 一 个 入 段 流 水 线 ， 假 设 流 水 段 i 用 时 为 t;:， 流 水 段 之 间 没 有 延迟 ， 那 么 流水 线 花 费 在 处 理 单 
个 指令 上 的 总 时 间 (从 头 到 尾 ) 是 多 少 ? 

在 下 面 的 代码 中 插入 nop 指令 来 消除 流水 线 停顿 (假设 流水 线 如 图 5.5 所 示 )。 


loadi r7, 10 # 把 10 放 在 寄存 器 7 中 

loadi r8, 15 # 将 15 人 

loadi r9,20 # 把 20 放 在 寄存 器 

addrr rl0,r7,r8 # 寄存 器 nh 反对 时 让 在 客 春 括 10 中 
movr rl2, r9 # 将 寄存 器 9 复制 到 寄存 器 12 

movr rll,r7 # er 7 复制 到 寄存 器 11 

addri rl4,rll1,27 # 27 与 寄存 器 11 相 加 ， 把 结果 放 在 寄存 器 14 中 
addrr rl3,rl2,rll # 寄存 器 11 与 12 相 加 ， 把 结果 放 在 寄存 器 13 中 
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数据 通路 和 指令 执行 





6.1 引言 

第 2 章 介绍 了 数字 逻辑 并 描述 用 于 创建 数字 系统 的 基本 硬件 构建 块 。 该 章 涵盖 了 基本 俱 
辑 门 ， 并 展示 了 如 何 用 晶体 管 构造 逻辑 门 。 该 章 还 介绍 了 时 钟 的 重要 概念 ， 并 演示 了 时 钟 如 
何 允许 数字 电路 执行 一 系列 操作 。 接 下 来 的 章节 描述 了 数据 如 何 用 二 进 制 表示 ， 并 涵盖 了 处 
理 器 和 指令 集 的 介绍 。 

本 章 介绍 如 何 将 数字 逻辑 电路 组 合 起 来 构建 计算 机 。 本 章 回顾 了 一 些 功能 单元 ， 例 如 算 
术 逻 辑 单元 和 存储 器 等 ， 并 展示 了 这 些 单元 是 如 何 相互 连接 的 。 最 后 ， 本 章 将 解释 不 同 单元 
如 何 相互 作用 来 执行 计算 。 本 书后 续 章 节 将 扩展 讨论 ， 更 详细 地 研究 处 理 器 和 内 存 系统 。 


6.2 数据 通路 


如 何 组 织 硬 件 设计 可 编程 计算 机 的 主题 非常 复杂 。 架 构 师 并 没有 关注 大 型 设计 的 所 有 细 
节 ， 而 是 首先 描述 主要 硬件 部 件 及 其 互 连 。 在 较 高 的 层面 上 ， 我 们 只 关心 如 何 从 内 存 中 读 取 
指令 以 及 如 何 执行 指令 。 因 此 ， 高 层 描述 忽略 了 许多 细节 ， 并 且 只 显示 了 执行 指令 时 数据 项 
移动 的 互 连 。 比 如 ， 当 我 们 考虑 加 法 操作 时 ， 我 们 将 看 到 两 个 操作 数 传送 到 ALU 的 数据 通 
路 ， 以 及 将 结果 传送 到 另 一 个 单元 的 数据 通路 。 我 们 的 示意 图 不 会 显示 其 他 细节 ， 例 如 电源 
和 接地 连接 或 控制 连接 。 计 算 机 架构 师 使 用 术语 数据 通路 来 描述 这 种 思想 ， 数 据 通路 图 用 于 
形象 地 描述 数据 通路 。 

为 了 清晰 地 讨论 数据 通路 ， 我 们 将 考虑 一 个 简化 的 计算 机 。 简 化 内 容 包括 : 

。 我 们 的 指令 集 只 包含 四 条 指令 。 

。 我 们 假设 程序 已 经 加 载 到 内 存 中 。 

e。 我 们 忽略 启动 并 假定 处 理 器 正在 运行 。 

。 我 们 假定 每 个 数据 项 和 每 条 指令 占用 的 都 是 32 位 。 

。 我 们 只 考虑 整数 运算 。 

。 我 们 完全 忽略 错误 条 件 ， 例 如 算术 溢出 。 

尽管 示例 计算 机 非常 简单 ， 但 我 们 所 讨论 的 基本 硬件 单元 与 传统 计算 机 完全 相同 。 因 
此 ， 该 示例 足以 说 明 主 要 硬件 部 件 ， 示 例 互 连 足 以 说 明 如 何 设计 数据 通路 。 


6.3 ”示例 指令 集 

如 前 一 章 所 述 ， 新 的 计算 机 设计 必须 从 指令 集 的 设计 开始 。 一 旦 指定 了 详细 的 指令 ， 计 
算 机 架构 师 就 可 以 设计 执行 每 条 指令 的 硬件 。 为 了 说 明 硬 件 是 如 何 组 织 的 ， 我 们 将 考虑 具有 
以 下 属性 的 设想 计算 机 : 

e 一 组 16 个 通用 寄存 器 9。 


“硬件 工程 师 通 常 使 用 术语 寄存 器 文件 来 指 代 一 个 硬件 单元 ， 它 实现 了 一 组 寄存 器 ; 我 们 将 简单 地 将 它们 称 为 
寄存 器 。 
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e 存放 指令 的 存储 器 ( 即 程序 )。 

e 保存 数据 项 的 单独 内 存 。 

每 个 寄存 器 可 以 保存 32 位 整数 值 。 指 令 存 储 器 包含 一 系列 要 执行 的 指令 。 如 上 所 述 ， 
我 们 忽略 启动 步骤 ， 并 假定 程序 已 被 放 人 指令 存储 器 。 数 据 存储 器 保存 数据 值 。 我 们 还 
假定 计算 机 上 的 两 个 存储 器 都 是 按 字 节 寻 址 的 ， 这 意味 着 为 存储 器 的 每 个 字 节 分 配 了 一 个 
地 址 。 

图 6.1 列 出 了 设想 的 计算 机 实现 的 四 条 基本 指令 。 


将 两 个 寄存 器 中 的 整数 相 加 并 将 结果 放 在 第 三 个 寄存 器 中 


将 数据 存储 器 中 的 整数 加 载 到 寄存 器 中 
将 寄存 器 中 的 整数 存储 到 数据 存储 器 中 
跳 转 到 指令 存储 器 中 的 新 位 置 


图 6.1 四 条 示例 指令 ， 各 自 使 用 的 操作 数 以 及 指令 的 含义 








加 法 (add) 指令 是 最 容易 理解 的 一 一 指令 从 两 个 寄存 器 获取 整数 值 ， 将 这 些 值 相 加 ， 
并 将 结果 存 人 第 三 个 寄存 器 。 例 如 ， 考 虑 加 法 指令 ， 其 指定 寄存 器 2 和 寄存 器 3 的 内 容 相 加 
并 将 结果 存 人 寄存 器 4。 如 果 寄 存 器 2 包含 50， 寄 存 器 3 包含 60， 那 么 这 样 的 加 法 指令 将 
把 110 存 人 寄存 器 4 中 ( 即 ， 寄 存 器 2 和 寄存 器 3 中 的 整数 之 和 )。 

在 汇编 语言 中 ， 通 过 给 出 指令 名 称 ， 接 着 给 出 操作 数 来 指定 这 样 的 指令 。 例 如 ， 程 序 员 
可 以 编写 前 一 段 中 描述 的 加 法 指令 : 


add 4s T2413 


其 中 符号 xX 用 于 指定 寄存 器 半 。 第 一 个 操作 数 指定 目的 寄存 器 (结果 存放 的 位 置 )， 男 外 两 
个 指定 源 寄 存 器 (指令 获取 用 于 相 加 的 值 )。 

加 载 ( load) 和 存储 ( store) 指令 将 数值 在 数据 存储 器 和 寄存 器 之 间 移 动 。 像 许多 
商业 处 理 器 一 样 ， 设 想 处 理 器 要 求 加 法 指令 的 两 个 操作 数 都 在 寄存 器 中 。 与 商用 计算 机 一 
样 ， 设 想 处 理 器 具有 大 量 数 据 存储 器 ， 但 只 有 少数 寄存 器 。 因 此 ， 要 将 两 个 内 存 中 的 整数 相 
加 ， 这 两 个 值 必须 加 载 到 寄存 器 中 。 加 载 指令 复制 内 存 中 的 一 个 整数 ， 并 将 副本 放 入 一 个 
寄存 器 中 。 存 储 指令 以 相反 的 方向 移动 数据 : 它 将 当前 在 寄存 器 中 的 值 复制 到 内 存 中 成 为 
整数 。 

加 载 或 存储 指令 的 一 个 操作 数 指定 寄存 器 ， 用 于 存储 或 读 取 值 。 另 一 个 操作 数 更 有 趣 ， 
因为 它 展 示 了 许多 商用 处 理 器 上 的 一 个 特性 : 单个 操作 数 结合 了 两 个 值 。 内 存 操作 数 不 是 使 
用 单个 常量 来 指定 内 存 地 址 ， 而 是 包含 两 个 部 分 。 一 部 分 指定 一 个 寄存 器 ， 另 一 部 分 指定 
一 个 常 被 称 为 偏 移 量 的 常量 。 当 指令 执行 时 ， 处 理 器 从 指定 寄存 器 读 取 当 前 值 ， 与 偏 移 量 相 
加 ， 并 将 结果 用 作 存 储 器 地 址 。 

一 个 例子 将 解释 这 个 思路 。 考 虑 从 内 存 中 读 取 值 到 寄存 器 1 的 加 载 指令 。 这 样 的 指令 可 
以 写成 : 

load zl 20.(r3) 


其 中 第 一 个 操作 数 指定 读 取 的 值 要 存 人 寄存 器 1。 第 二 个 操作 数 指定 存储 器 地 址 ， 这 个 地 址 
通过 将 偏 移 量 20 和 寄存 器 3 的 当前 内 容 相 加 计算 得 到 。 
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为 什么 处 理 器 设计 成 使 用 指定 寄存 器 加 上 偏 移 量 来 指定 操作 数 ? 使 用 这 种 形式 可 以 轻松 
高 效 地 遍历 数组 。 第 一 个 元 素 的 地 址 放 在 一 个 寄存 器 中 ， 元 素 的 字 节 大 小 可 以 通过 使 用 操 
作 数 的 常量 部 分 来 访问 。 要 移动 到 数组 的 下 一 个 元 素 ， 寄 存 器 会 增加 一 个 元 素 字 节 大 小 。 目 
前 ， 我 们 只 需要 了 解 使 用 这 些 操作 数 ， 并 考虑 如 何 设 计 实 现 它们 的 硬件 。 

举例 来 说 ， 假 设 寄存 器 3 包含 值 10 000， 并 且 上 面 所 示 的 加 载 指令 指定 偏 移 量 20。 当 
执行 指令 时 ， 硬 件 将 10 000 和 20 相 加 ， 结 果 作为 存储 器 地 址 ， 将 10 020 位 置 的 整数 读 和 人 
寄存 器 1。 

第 四 条 指令 ， 跳 转 ( jump) 指令 通过 给 处 理 器 一 个 指令 存储 器 中 的 地 址 来 控制 执行 流 
程 。 通 常 ， 设 想 处 理 器 就 像 普通 的 处 理 器 一 样 ， 通 过 执行 指令 然后 自动 移动 到 内 存 中 的 下 一 
条 指令 。 但 是 ， 当 它 遇 到 跳 转 指令 时 ， 处 理 器 不 会 移动 到 下 一 条 指令 。 相 反 ， 处 理 器 使 用 跳 
转 指令 中 的 操作 数 来 计算 内 存 地 址 ， 然 后 开始 在 该 地 址 执行 。 

像 加 载 和 存储 指令 一 样 ， 跳 转 指令 允许 在 其 操作 数 中 指定 寄存 器 和 偏 移 量 。 例 如 ， 指 令 


jump 60(r11) 
指定 处 理 器 应 该 获得 寄存 器 11 的 内 容 ， 加 上 60， 将 结果 作为 指令 存储 器 中 的 地 址 ， 并 使 该 
地 址 成 为 执行 指令 的 下 一 个 位 置 。 现 在 理解 处 理 器 为 什么 包含 跳 转 指令 并 不 重要 一 一 你 只 需 
要 了 解 硬件 如 何 处 理 在 程序 中 移动 到 新 位 置 。 


6.4 内 存 中 的 指令 


设想 的 计算 机 上 的 指令 存储 器 包含 处 理 器 执行 的 指令 集 ， 每 条 指令 占用 32 位 。 计 算 机 
设计 者 通过 指定 每 个 位 的 含义 来 指定 每 条 指令 的 确切 格式 。 图 6.2 显示 了 设想 计算 机 的 指令 
格式 。 


操作 ( 码 ) ”寄存 器 A 寄存 器 B 目的 寄存 器 未 使 用 
操作 ( 码 ) ”寄存 器 A 未 使 用 目的 寄存 器 偏 移 量 
操作 ( 码 ) ”寄存 器 A 寄存 器 B 未 使 用 偏 移 量 
操作 ( 码 ) ”寄存 器 A 未 使 用 未 使 用 偏 移 量 


i i 0 


图 6.2 四 条 指令 ( 见 图 6.1 ) 的 二 进 制 表示 ， 每 条 指令 都 有 32 位 


仔细 查看 每 条 指令 中 使 用 的 字段 。 尽 管 某 些 指令 中 不 需要 某 些 字段 ， 但 每 个 指令 的 格式 
完全 相同 。 统 一 的 格式 可 以 很 容易 地 设计 从 指令 中 提取 字段 的 硬件 。 

指令 中 的 操作 字段 (有 时 称 为 操作 码 (opcode) 字段 ) 包含 一 个 用 于 指定 操作 的 值 。 在 
我 们 的 例子 中 ， 加 法 指令 将 操作 字段 设置 为 1， 加 载 指令 将 操作 字段 设置 为 2， 依 此 类 推 。 
因此 ， 当 它 提取 指令 时 ， 硬 件 可 以 使 用 操作 字段 来 决定 执行 哪个 操作 。 

含有 寄存 器 的 三 个 字段 以 其 名 称 指定 三 个 寄存 器 。 只 有 加 法 指令 需要 全 部 三 个 寄存 器 ; 
在 其 他 指令 中 ， 有 一 个 或 两 个 寄存 器 字段 没有 使 用 。 除 加 法 指令 之 外 ， 执 行 其 他 指令 时 ， 硬 
件 会 忽略 未 使 用 的 字段 。 
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指令 中 操作 数 的 顺序 可 能 看 起 来 出 乎 意料 ， 和 上 述 代 码 不 一 致 。 例 如 ， 加 法 指令 的 代码 
在 左边 有 目的 寄存 器 (包含 结果 的 寄存 器 )， 在 右边 有 两 个 寄存 器 。 在 指令 中 ， 指 定 要 相 加 
的 两 个 寄存 器 的 字段 位 于 指定 目标 字段 之 前 。 图 6.3 显示 了 一 个 程序 员 写 的 语句 ， 以 及 当 它 
转换 为 内 存 中 的 位 时 的 指令 。 我 们 可 以 总 结 一 下 : 





汇编 语 言 程序 中 操作 吉 的 顺序 为 方便 程序 员 而 设计 ;存储 器 中 的 指令 操作 才 顺 序 以 
使 硬件 高 效 为 目标 。 ee 
二 总 GE 庆生 Tz2; £3 
a) 

操作 寄存 器 A 寄存 器 B 目的 寄存 器 偏 移 量 


oo or oo or lo ol oo ooo oo 
b) 


图 6.3 a) 程序 员 看 到 的 加 法 指令 的 例子 ; b) 存储 在 内 存 中 的 对 应 指令 


在 图 6.3 中 ， 标 记 为 寄存 器 A 的 字段 包含 2 以 指定 寄存 器 2， 标记 为 寄存 器 B 的 字段 
包含 3 以 指定 寄存 器 3， 并 且 标 记 为 目的 寄存 器 的 字段 包含 4 以 指定 结果 应 放置 在 寄存 器 
4 中 。 

当 我 们 研究 硬件 时 ， 我 们 会 看 到 用 于 指令 的 二 进 制 表示 法 并 非 没 有 规律 可 循 一 一 这 种 格 
式 为 了 简化 硬件 而 设计 。 例 如 ， 如 果 一 条 指令 具有 一 个 指定 存储 器 地 址 的 操作 数 ， 则 操作 数 
中 的 寄存 器 总 是 分 配给 标记 为 寄存 器 A 的 字段 。 因 此 ， 如 果 硬 件 必 须 将 偏 移 量 添加 到 寄存 
器 ， 则 寄存 器 总 是 在 字段 寄存 器 A 中 找到 。 同 样 ， 如 果 一 个 结果 值 必须 放 在 一 个 寄存 器 中 ， 
该 寄存 器 可 在 字段 目的 寄存 器 中 找到 。 


6.5 移 到 下 一 条 指令 


第 2 章 说 明了 如 何 使 用 时 钟 来 控制 固定 序列 步骤 的 时 序 。 构 建 计算 机 需要 一 个 额外 的 转 
折 : 一 个 计算 机 是 可 编程 的 ， 而 不 是 一 个 固定 的 步 又 序列 ， 这 意味 着 尽管 计算 机 有 硬件 来 执 
行 每 一 条 可 能 的 指令 ， 但 执行 的 指令 的 确切 顺序 不 是 预定 的 。 相 反 ， 程 序 员 在 内 存 中 存储 程 
序 ， 处 理 器 在 内 存 中 遍 历 ， 每 次 获取 并 执行 一 条 后 续 的 指令 。 接 下 来 将 说 明 如 何 利 用 数字 逻 
辑 电路 来 实现 可 编程 性 。 

需要 哪些 硬件 来 执行 内 存 指令 ? 一 个 关键 元 素 称 为 指令 指针 。 指 令 指针 由 一 个 处 理 器 的 
寄存 器 ( 即 一 组 锁 存 器 ) 组 成 ， 该 寄存 器 保存 要 执行 的 下 一 条 指令 的 存储 器 地 址 。 例 如 ， 我 
们 想象 一 台 具 有 32 位 内 存 地 址 的 计算 机 ， 指 令 指针 将 保存 32 位 值 。 为 了 执行 指令 ， 硬 件 重 
复 以 下 三 个 步 又。 

e 使 用 指令 指针 作为 内 存 地 址 ， 并 获取 一 条 指令 。 

。 使 用 指令 中 的 位 来 控制 执行 操作 的 硬件 。 

e 将 指令 指针 移 至 下 一 条 指令 。 

移动 到 下 一 条 指令 的 机 制 是 可 以 执行 指令 的 处 理 器 的 重要 组 成 部 分 。 在 从 指令 存储 器 中 
提取 指令 后 ， 处 理 器 必须 计算 紧 接着 的 下 一 条 指令 的 存储 器 地 址 。 因 此 ， 一 旦 给 定 指令 已 经 
执行 ， 处 理 器 就 准备 好 执行 下 一 个 顺序 指令 。 

在 我 们 的 示例 计算 机 中 ， 每 条 指令 占用 内 存 中 的 32 位 。 但 是 ， 内 存 是 字 节 寻 址 的 ， 这 
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意味 着 在 执行 指令 后 ,硬件 必须 将 指令 指针 增加 四 个 字 节 ( 32 位 ) 才能 移动 到 下 一 条 指令 。 
本 质 上 ， 处 理 器 必须 在 指令 指针 中 加 4， 并 将 结果 写 回 指令 指针 。 为 了 执行 计算 ， 将 常数 


4 和 当前 指令 指针 值 传递 给 32 位 加 法 器 。 图 6.4 说 明 
了 用 于 递增 指令 指针 的 基本 部 件 ， 并 显示 了 部 件 如 何 
百 连 ， 

图 6.4 中 的 电路 似乎 是 一 个 无 限 循环 ， 它 将 持续 不 
断 地 增加 程序 计数 器 。 为 了 理解 电路 的 工作 原理 ， 回 想 
一 下 时 钟 用 于 控制 和 同步 数字 电路 。 对 于 程序 计数 器 ， 
时 钟 只 允许 在 执行 指令 后 递增 。 尽 管 没有 显示 时 钟 ， 但 
我 们 将 假定 电路 的 每 个 部 件 都 连接 到 时 钟 ， 而 部 件 仅 根 
据 时 钟 动 作 。 因 此 ， 加 法 器 将 立即 计算 一 个 新 的 值 ， 但 
程序 计数 器 在 时 钟 脉 冲 到 来 之 前 不 会 更 新 。 在 我 们 的 讨 
论 中 ,将 假设 每 条 指令 产生 一 次 时 钟 脉 冲 。 

图 6.4 中 的 每 一 条 线 表示 由 多 根 平 行 线 组 成 的 数 
据 通路 。 在 该 图 中 ， 每 个 数据 通路 是 32 位 宽 。 也 就 是 











32 位 的 


程序 计数 器 32 位 加 法 器 


程序 计数 器 的 值 ， 
用 于 其 他 部 件 


图 6.4 用 于 递增 程序 计数 器 的 硬件 


说 ， 加 法 器 需要 两 个 输入 ， 这 两 个 输入 都 是 32 位 。 指 令 指 针 的 值 很 明显 ， 因 为 指令 指针 有 
32 位 。 另 一 个 输入 ， 用 标号 4 标记， 代表 一 个 32 位 常数 ， 数 值 为 4。 也 就 是 说 ， 我 们 可 以 


想象 三 十 二 根 导 线 中 ， 除 了 第 三 根 导线 之 外 ， 其 余 都 是 零 。 


结果 。 
6.6 ” 取 指 令 


加 法 器 计算 总 和 ， 并 产生 32 位 


构建 计算 机 的 下 一 步 包括 从 内 存 中 获取 指令 。 举 个 简单 的 例子 ， 我 们 假设 一 个 专用 的 指 
令 存储 器 存储 要 执行 的 程序 ， 存 储 器 硬件 单元 将 地 址 作为 输入 ， 从 存储 器 中 的 指定 位 置 提取 
32 位 数据 值 。 也 就 是 说 ， 我 们 将 存储 器 想象 成 一 个 具有 一 组 输入 线 和 一 组 输出 线 的 字 节 阵 
列 。 无 论 何 时 ， 存 储 器 都 会 将 输入 线 上 的 数据 用 作 和 解码 器 的 输入 ， 选 择 适 当 的 字 节 ， 并 将 输 
出 线 设 置 为 字 节 中 的 值 。 图 6.5 说 明了 如 何 使 用 程序 计数 器 中 的 值 作为 指令 存储 器 的 地 址 。 


32 位 程序 
是 数 基 yj 法 区 





图 6.5 取 指 令 过 程 中 使 用 的 数据 通路 ， 其 中 程序 计数 器 的 值 用 作 存 储 器 地 址 
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6.7 解码 指令 


当 一 条 指令 从 内 存 中 取出 时 ， 它 有 32 位 。 执 行 中 的 下 一 个 概念 上 的 步骤 由 指令 解码 组 
成 。 也 就 是 说 ,硬件 分 离 指 令 的 各 个 字段 ， 比 如 操作 码 、 指 定 的 寄存 器 和 偏 移 量 。 回 想 一 下 
图 6.2 中 的 指令 位 是 如 何 组 织 的 。 由 于 我 们 对 每 个 部 分 使 用 不 同 的 位 字段 ， 所 以 指令 解码 是 
很 容易 的 一 一 硬件 只 是 简单 地 分 离 操 作 字段 所 属 、 三 个 寄存 器 字段 和 偏 移 量 字段 所 属 的 位 。 
图 6.6 说 明了 如 何 将 指令 存储 器 的 输出 提供 给 指令 解码 器 。 
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图 6.6 连接 到 指令 存储 器 输出 的 指令 译 码 器 的 示意 图 





偏 移 量 
操作 ( 码 ) 


在 图 6.6 中 ,来 自 指令 解码 器 的 各 个 输出 不 全 都 具有 32 位 。 操 作 码 字段 由 5 位 构成 ， 
寄存 器 的 输出 每 个 由 4 位 组 成 ， 标 记 为 偏 移 量 的 输出 由 15 位 组 成 。 因 此 ， 我 们 可 以 将 数据 
通路 图 中 的 一 条 线 想象 为 表示 一 个 或 多 个 数据 位 。 

理解 解码 器 如 何 将 指令 中 各 字段 解码 输出 很 重要 。 例 如 ， 标 有 偏 移 量 的 路 径 包 含 来 自 指 
令 的 15 个 偏 移 位 。 同 样 ， 标 注 为 寄存 器 A 的 数据 通路 仅 包含 指令 中 寄存 器 A 字段 的 四 位 。 
关键 在 于 ， 寄 存 器 A 的 数据 只 指定 要 使 用 哪个 寄存 器 ， 并 且 不 包含 当前 寄存 器 中 的 值 。 我 
们 可 以 总 结 一 下 : 





与 设想 的 计算 机 不 同 ， 真正 的 处 理 器 可 能 有 多 种 指令 格式 (例如 ,算术 指令 中 的 字段 可 
能 与 存储 器 访问 指令 中 的 字段 位 于 不 同 的 位 置 )。 此 外 ， 真 正 的 处 理 器 可 能 具有 可 变 长 度 指 
令 。 因 此 ， 指 令 解码 器 可 能 需要 根据 操作 来 决定 字段 的 位 置 。 尽 管 如 此 ， 这 个 原则 仍然 适 
用 : 解码 器 从 指令 中 提取 字段 并 将 每 个 字段 传递 给 数据 通路 。 


6.8 连接 到 寄存 器 单元 


指令 的 寄存 器 字段 用 于 选择 指令 中 使 用 的 寄存 器 。 在 我 们 的 例子 中 ， 跳 转 指令 使 用 一 个 
寄存 器 ， 加 载 或 存储 指令 使 用 两 个 ， 而 一 个 加 法 指令 使 用 三 个 。 因 此 ， 如 图 6.7 所 示 ， 三 个 
可 能 的 寄存 器 字段 都 必须 连接 到 寄存 器 存储 单元 。 
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源 寄存 器 A 中 的 内 容 
源 寄 存 器 B 中 的 内 容 


图 6.7 连接 到 指令 解码 器 的 寄存 器 单元 的 示意 图 


6.9 ”控制 和 协调 


尽管 所 有 的 3 个 寄存 器 字段 都 连接 到 了 寄存 器 单元 ,但 寄存 器 单元 并 不 总 是 用 到 所 有 这 
3 个 寄存 器 字段 。 相 反 ， 寄 存 器 单元 包含 一 个 逻辑 ， 用 于 确定 给 定 指令 是 从 寄存 器 读 取现 有 
值 还 是 将 数据 写 入 其 中 一 个 寄存 器 。 特 别 是 ， 加 载 和 加 法 指令 每 个 都 将 结果 写 人 寄存 器 ， 但 
跳 转 和 存储 指令 不 会 。 

看 起 来 指令 的 操作 ( 码 ) 部 分 应 该 被 传递 给 寄存 器 单元 ， 让 它 知道 如 何 处 理 。 为 了 理解 
为 什么 图 6.7 中 没有 显示 指令 剩余 字段 和 寄存 器 单元 之 间 的 连接 ， 请 记 住 ， 我 们 只 是 在 探讨 
数据 通路 ( 即 数据 可 以 流动 的 硬件 路 径 )。 在 实际 的 计算 机 中 ， 图 中 所 示 的 每 个 单元 会 具有 
传送 控制 信号 的 附加 连接 。 例 如 ， 每 个 单元 必须 接收 一 个 时 钟 信号 ， 以 确保 在 正确 的 时 间 采 
取 行动 (例如 ,确保 数据 存储 器 在 计算 出 正确 的 地 址 之 前 不 存储 数据 )。 

实际 上 ， 大 多 数 计算 机 使 用 附加 的 硬件 单元 ( 称 为 控制 器 ) 来 协调 整体 数据 移动 和 每 个 
功能 单元 。 控 制 器 必须 和 其 他 的 每 一 个 单元 有 一 个 或 多 个 连接 ， 并 且 必 须 使 用 指令 的 操作 字 
段 来 确定 每 个 单元 如 何 操作 以 执行 指令 。 例 如 ， 在 示意 图 中 ， 控 制 器 和 寄存 器 单元 之 间 的 连 
接 将 用 于 指定 寄存 器 单元 是 否 应 该 获取 一 个 或 两 个 寄存 器 的 值 ， 以 及 该 单元 是 否 应 接受 要 放 
人 寄存 器 的 数据 。 现 在 ， 我 们 将 假设 有 一 个 控制 器 来 协调 所 有 单元 的 操作 。 


6.10 算术 运算 和 复 用 


我 们 的 示例 指令 集 说 明了 一 个 重要 原则 : 硬件 的 设计 目标 是 重用 功能 单元 。 比 如 算术 运 
算 ， 只 有 加 法 指令 直接 显 式 地 进行 算术 运算 。 一 个 真正 的 处 理 器 会 有 几 个 算术 运算 和 逻辑 运 
算 指令 (例如 ,减法 、 移 位 、 逻 辑 和 等 )， 并 且 将 使 用 指令 中 的 操作 字段 来 决定 应 该 执行 哪 
个 算术 逻辑 运算 单元 。 

我 们 的 指令 集 还 有 一 个 与 加 载 、 存 储 和 跳 转 指令 相关 的 隐 式 算术 运算 。 在 执行 这 些 指令 
时 都 需要 执行 加 法 操作 。 即 ， 处 理 器 必须 将 在 指令 中 得 到 的 偏 移 值 和 寄存 器 的 值 相 加 ， 然 后 
将 得 到 的 和 作为 内 存 地 址 。 

问题 是 : 处 理 器 是 需要 单独 的 硬件 单元 来 计算 地 址 ， 还 是 应 该 将 单个 算术 逻辑 运算 单元 
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同时 用 于 算术 计算 和 地 址 计算 ? 这 样 的 问题 是 处 理 器 设计 的 基础 。 单 独 的 功能 单元 具有 速度 
和 易于 设计 的 优点 ， 实 现 多 种 功能 的 重用 单元 具有 耗 电 少 的 优点 。 

我 们 的 设计 前 述 了 重用 模式 。 像 许多 处 理 器 一 样 ， 我 们 的 设计 包含 一 个 执行 所 有 算术 运 
算 9 的 算术 逻辑 单元 (ALU)。 在 示例 指令 集中 ,算术 人 逻辑 单元 的 输入 可 以 有 两 个 来 源 : 一 对 
寄存 器 ， 或 一 个 寄存 器 和 一 个 指令 的 偏 移 量 字段 。 硬 件 单元 如 何在 多 个 输入 源 中 进行 选择 ? 
适应 两 种 可 能 输入 的 机 制 称 为 多 路 复 用 器 。 其 基本 思想 是 多 路 复 用 器 具有 天 个 数据 输入 ， 
一 个 数据 输出 和 用 于 选择 输入 源 的 一 组 控制 线 。 要 理解 如 何 使 用 多 路 复 用 器 ， 见 图 6.8， 它 
显示 了 寄存 器 单元 和 算术 逻辑 单元 之 间 的 多 路 复 用 器 。 查 看 该 图 时 ， 请 记 住 ， 图 中 的 每 一 条 
线 代表 一 个 包含 32 位 的 数据 通路 。 因 此 ， 多 路 复 用 器 的 每 个 输入 与 输出 一 样 包含 32 位 。 多 
路 复 用 器 从 两 个 输入 中 选择 其 一 ， 选 中 它 的 全 部 32 位 并 将 它们 发 送 到 输出 。 
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偏 移 量 
图 6.8 为 ALU 选择 输入 的 多 路 复 用 器 的 示意 图 


在 图 6.8 中 ， 多 路 复 用 器 的 输入 来 自 寄存 器 单元 和 指令 中 的 偏 移 量 字段 。 多 路 复 用 器 如 
何 选择 输入 ? 回想 一 下 ， 我 们 的 图 只 显示 数据 通路 。 另 外 ， 处 理 器 包含 一 个 控制 器 ， 所 有 单 
元 都 连接 到 控制 器 。 当 处 理 器 执行 加 法 指令 时 ， 控 制 器 发 信号 通知 多 路 复 用 器 选择 来 自 寄存 
器 单元 的 输入 。 当 处 理 右 执行 其 他 指令 时 ， 控 制 器 指定 多 路 复 用 器 选择 来 自 指令 中 偏 移 量 字 
段 的 输入 。 

注意 指令 的 操作 字段 被 传 给 算术 人 逻辑 单元 。 这 样 可 以 让 算术 人 逻辑 单元 知道 要 执行 哪个 操 
作 。 在 算术 或 逻辑 指令 (例如 ， 加 、 减 、 右 移 、 逻 辑 和 ) 的 情况 下 ， 算 术 逻 辑 单元 根据 操作 
执行 相应 的 动作 。 在 其 他 指令 的 情况 下 ， 算 术 人 逻辑 单元 执行 加 法 。 


6.11 涉及 存储 器 中 数据 的 操作 


当 执 行 加 载 或 存储 操作 时 ,计算 机 必须 引用 数据 存储 器 中 的 内 容 。 执 行 这 些 操作 时 ， 算 
术 逻 辑 单元 将 指令 中 的 偏 移 量 和 一 个 寄存 器 的 值 相 加 ， 并 将 结果 用 作 内 存 地 址 。 在 我 们 的 简 
化 设计 中 ， 用 于 存储 数据 的 存储 器 与 用 于 存储 指令 的 存储 器 是 分 开 的 。 图 6.9 说 明了 用 于 连 
接 数 据 存储 器 的 数据 通路 。 
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日 ”增加 程序 计数 器 的 值 是 一 种 特殊 情况 。 
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图 6.9 包含 数据 存储 器 的 数据 通路 示意 图 





6.12 ”执行 过 程 的 示例 

要 理解 计算 如 何 进行 ， 需 要 考虑 用 于 每 条 指令 的 数据 通路 。 接 下 来 解释 这 个 过 程 。 在 每 
种 情况 下 ， 程 序 计 数 器 都 会 给 出 一 条 指令 的 地 址 ， 该 指令 被 传递 给 指令 存储 器 。 指 令 存储 器 
从 存储 器 阵列 中 取出 值 ， 并 将 所 有 位 传递 给 指令 解码 器 。 该 解码 器 分 离 指令 的 各 个 字段 并 将 
它们 传递 给 相应 单元 。 其 余 的 操作 取决 于 对 应 指令 。 

加 法 。 对 于 加 法 指令 ， 寄 存 器 单元 获得 了 三 个 寄存 器 编号 ， 它 们 沿 着 标 有 寄存 器 A、 寄 
存 器 B 和 目的 寄存 器 的 路 径 传 递 。 寄 存 器 单元 获取 前 两 个 寄存 器 中 的 值 ， 并 将 其 传递 给 算 
术 罗 辑 单元 (ALU)。 寄 存 器 单元 也 准备 写 人 第 三 个 寄存 器 。ALU 使 用 操作 码 来 确定 是 否 需 
要 相 加 。 为 了 允许 寄存 器 单元 中 寄存 器 B 的 输出 到 达 ALU， 控 制 器 (未 示 出 ) 必须 设置 多 
路 复 用 器 M2 传递 来 自 寄存 器 B 的 值 ， 并 忽略 来 自 指令 解码 器 的 偏 移 值 输入 。 控 制 器 必须 设 
置 多 路 复 用 器 M3 将 来 自 ALU 的 输出 传送 到 寄存 器 单元 的 数据 输入 端 ， 并 且 必 须 将 多 路 复 
用 器 M1 设置 为 忽略 来 自 ALU 的 输出 。 一 旦 ALU 的 输出 连接 到 寄存 器 单元 的 输入 端 上 ， 寄 
存 器 单元 将 该 值 存储 在 标 有 目的 寄存 器 的 路 径 所 指定 的 寄存 器 中 ， 操 作 完 成 。 

存储 。 从 存储 器 中 取出 存储 指令 并 解码 后 ， 寄 存 器 单元 获取 寄存 器 A 和 了 B 的 值 ， 并 将 
它们 放置 在 其 输出 线 上 。 多 路 复 用 器 M2 设置 为 将 偏 移 量 字段 传递 给 ALU 并 忽略 寄存 器 B 
的 值 。 控 制 器 指示 ALU 执行 加 法 ， 该 加 法 将 寄存 器 A 的 内 容 和 偏 移 量 相 加 。 所 产生 的 和 作 
为 地 址 传递 到 数据 存储 器 。 同 时 ， 寄 存 器 B 的 值 (寄存 器 单元 的 第 二 个 输出 ) 被 传送 到 数据 
存储 器 的 数据 输入 端 。 控 制 器 指示 数据 存储 器 执行 写 操作 ， 写 操作 将 寄存 器 B 的 值 写 入 由 
地 址 线 上 的 值 指定 的 位 置 ， 操 作 完 成 。 

加 载 。 在 读 取 并 解码 出 加 载 指令 后 ， 控 制 器 设置 多 路 复 用 器 M2， 以 便 ALU 从 指令 中 
接收 寄存 器 A 的 内 容 和 偏 移 量 字 段 。 与 存储 操作 一 样 ， 控 制 器 指示 ALU 执行 加 法 ， 结 果 作 
为 地 址 传递 到 数据 存储 器 。 控 制 器 发 信号 通知 数据 存储 器 执行 读 取 操 作 ， 这 意味 着 数据 存储 
器 的 输出 是 地 址 输入 给 定位 置 处 的 值 。 控 制 器 必须 将 多 路 复 用 器 M3 设置 为 忽略 ALU 的 输 
出 ， 沿 着 寄存 器 单元 的 路 径 传递 数据 存储 器 的 输出 数据 。 控 制 器 发 信号 通知 寄存 器 单元 将 
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其 输入 值 存储 在 目的 寄存 器 指定 的 寄存 器 中 。 一 旦 寄存 器 单元 存储 该 值 ， 指 令 的 执行 就 完 
成 了 。 

跳 转 。 在 跳 转 指令 被 取出 并 解码 之 后 ， 控 制 器 设置 多 路 复 用 器 M2 从 指令 中 传递 偏 移 量 
字段 ， 并 指示 ALU 执行 加 法 。ALU 将 偏 移 量 与 寄存 器 A 的 内 容 相 加 。 要 将 结果 用 作 地 址 ， 
控制 器 会 将 多 路 复 用 器 M3 设置 为 传递 ALU 的 输出 并 忽略 数据 存储 器 的 输出 。 最 后 ， 控 制 
器 设置 多 路 复 用 器 M1 将 来 自 ALU 的 值 传递 给 程序 计数 器 。 因 此 ，ALU 的 结果 成 为 32 位 
程序 计数 器 的 输入 。 程 序 计数 器 接收 并 存储 该 值 ， 该 指令 完成 。 回 想 一 下 ， 程序 计 数 器 总 是 
指定 下 一 条 指令 的 内 存 地 址 。 因 此 ， 当 执行 下 一 条 指令 时 ,将 从 前 一 条 指令 中 计算 的 地 址 中 
提取 出 来 ( 即 程序 将 跳 转 到 新 的 位 置 )。 


6.13 ”小 结 


计算 机 系统 是 可 编程 的 ， 这 意味 着 计算 机 不 是 将 整个 操作 序列 硬 连 线 成 数字 逻辑 ， 而 是 
执行 来 自 存储 器 的 指令 。 可 编程 性 提供 了 强大 的 计算 能 力 和 灵活 性 ， 人 允许 通过 将 新 程序 加 载 
到 内 存 中 来 改变 计算 机 的 功能 。 虽 然 执 行 指令 的 计算 机 的 总 体 设计 很 复杂 ， 但 基本 部 件 并 不 
难 理解 。 

计算 机 由 多 个 硬件 部 件 组 成 ， 如 程序 计数 器 、 存 储 器 、 寄 存 器 单元 和 ALU。 部 件 之 间 
的 连接 构成 计算 机 的 数据 通路 。 我 们 研究 了 一 系列 足以 执行 基本 指令 的 部 件 ， 并 探讨 指令 取 
指 、 译 码 和 执行 步骤 的 硬件 ， 包 括 寄 存 器 和 数据 访问 。 指 令 编码 以 硬件 设计 更 容易 作为 目 
标 一 一 指令 字段 被 提取 并 传递 到 每 个 硬件 单元 。 

除了 数据 通路 外 ， 控 制 器 还 连接 着 每 个 硬件 单元 。 多 路 复 用 器 是 允许 控制 器 在 硬件 单元 
之 间 切 换 传送 数据 的 重要 机 制 。 实 质 上 ， 每 个 多 路 复 用 器 都 可 以 作为 一 种 开关 ， 人 允许 将 来 自 
多 个 源 之 一 的 数据 发 送 到 给 定 的 输出 。 当 指令 执行 时 ， 控 制 器 使 用 指令 字段 确定 在 执行 过 程 
中 如 何 设置 多 路 复 用 器 。 多 路 复 用 器 允许 单个 ALU 计算 地 址 偏 移 量 以 及 计算 算术 操作 。 

我 们 讨论 了 基本 指令 的 执行 情况 ， 并 了 解 了 计算 机 中 数据 通路 上 的 多 路 复 用 器 如 何 控制 
哪些 值 传递 给 给 定 的 硬件 单元 。 例 如 ， 我 们 看 到 ， 多 路 复 用 器 可 以 选择 程序 计数 器 加 4 以 移 
动 到 下 一 条 指令 ， 还 是 用 ALU 的 输出 取代 该 值 (执行 跳 转 )。 


习题 
6.1 “示例 系统 是 否 遵循 汉 “' 诺 依 曼 体系 结构 ?请 给 出 理由 。 
6.2 ”请 参考 图 6.3， 写 出 下 列 指令 存储 在 内 存 中 的 每 一 位 : 





add rl, rli4, r9 
6.3 ”请 参考 图 6.3， 写 出 下 列 指令 存储 在 内 存 中 的 每 一 位 : 
load r7, 43(r15) 
6.4 为 什么 下 面 的 指令 无 效 ? 
jump 40000(r15) 
提示 : 考虑 将 指令 存储 在 内 存 中 。 
6.5 本章 介 绍 的 例子 使 用 四 条 指令 。 给 定 图 6.2 中 的 二 进 制 表示 ， 可 以 创建 多 少 条 指令 (操作 码 ) ? 


6.6 解释 为 什么 图 6.5 中 的 电路 不 仅仅 是 一 个 疯狂 运行 的 无 限 循环 。 
6.7 ” 当 执 行 跳 转 指 令 时 ，ALU 执行 什么 操作 ? 
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6.8 数据 通路 图 (如 图 6.9 中 的 图 表 ) 隐藏 了 许多 细节 。 如 果 改 变 这 个 例子 ， 每 条 指令 都 是 64 位 长 ， 
那么 图 中 必须 做 哪些 微小 的 改变 ? 

6.9 制作 所 有 指令 的 表格 ， 并 说 明 在 执行 指令 时 如 何 设 置 每 个 多 路 复 用 器 。 

6.10 ”修改 示例 系统 以 包含 额外 的 操作 一 一 右 移 和 减法 。 

6.11 在 图 6.9 中 ,在 加 法 指令 期 间 ， 哪 个 输入 没有 使 用 多 路 复 用 器 M1 传递 ? 

6.12 在 图 6.9 中 ， 哪 条 指令 使 用 多 路 复 用 器 M3 选择 来 自 ALU 的 输入 ? 

6.13 重新 设计 图 6.9 中 的 计算 机 系统 以 包含 相对 分 支 指令 。 假 定 偏 移 量 字段 包含 一 个 有 符号 的 值 ， 
并 将 该 值 添加 到 当前 程序 计数 器 ， 以 产生 程序 计数 器 的 下 一 个 值 。 

6.14 图 6.9 中 的 系统 可 以 处 理 乘 法 吗 ? 请 给 出 理由 。 
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操作 数 寻 址 和 指令 表示 





7.1 引言 


前 面 的 章节 讨论 处 理 器 的 类 型 并 考虑 处 理 器 指令 集 。 本 章 重 点 介绍 与 指令 有 关 的 两 个 细 
节 : 指令 在 内 存 中 的 表示 方式 以 及 操作 数 的 指定 方式 。 我 们 将 看 到 ， 操 作 数 的 形式 与 程序 员 
格外 相关 。 我 们 也 将 理解 指令 表示 如 何 确定 可 能 的 操作 数 形式 。 

下 一 章 将 通过 解释 如 何 操作 中 央 处 理 单元 (CPU) 来 继续 讨论 处 理 器 。 我 们 将 看 到 CPU 
如 何 将 我 们 已 经 讨论 过 的 许多 功能 组 合 到 一 个 大 型 的 统一 系统 中 。 
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我 们 说 一 条 指令 通常 存储 为 一 个 操作 码 后 面 跟 零 个 或 多 个 操作 数 。 需 要 多 少 操作 数 ? 第 
5 章 的 讨论 假定 操作 数 的 数量 由 正在 执行 的 操作 决定 。 因 此 ,加 法 (aqa) 指令 至 少 需要 两 
个 操作 数 ， 因 为 加 法 涉及 至 少 两 个 数 。 同 样 ， 布 尔 非 ( not) 指令 只 需要 一 个 操作 数 ， 因 为 
逻辑 反 转 只 涉及 一 个 数 。 但 是 ,第 5 章 中 介绍 的 MIPS 指令 示例 在 每 条 指令 上 使 用 了 一 个 额 
外 的 操作 数 ， 用 于 指定 结果 的 位 置 。 因 此 ， 在 示例 指令 集中 ，add 指令 需要 三 个 操作 数 : 两 
个 指定 要 相 加 的 值 ， 另 一 个 指定 结果 的 位 置 。 

尽管 处 理 器 的 直观 吸引 力 在 于 每 个 指令 可 以 有 任意 数量 的 操作 数 ， 但 许多 处 理 器 不 允许 
这 种 方案 。 要 理解 为 什么 ， 我 们 必须 考虑 底层 硬件 。 首 先 ， 因 为 任意 数量 的 操作 数 意味 着 可 
变 长 度 指令 ， 读 取 和 解码 指令 比 使 用 固定 长 度 指 令 效率 低 。 其 次 ， 因 为 获取 任意 数量 的 操作 
数 需 要 花费 时 间 ， 处 理 右 的 运行 速度 比 操作 数 固定 的 处 理 器 慢 。 

似乎 并 行 硬件 可 以 解决 一 些 低 效率 问题 。 想 象 一 下 ， 例 如， 每 个 并 行 硬 件 单元 获取 指令 
的 一 个 操作 数 。 如 果 一 个 指令 有 两 个 操作 数 ， 则 两 个 单元 同时 操作 ; 如 果 指 令 有 四 个 操作 
数 ， 则 四 个 单元 同时 操作 。 然 而 ， 并 行 硬件 在 芯片 上 占用 更 多 空间 并 需要 额外 的 功率 。 另 
外 ， 芯 片上 的 引 脚 数量 限制 了 可 以 并 行 访问 芯片 外 部 的 数据 量 。 因 此 ， 在 许多 情况 下 并 行 硬 
件 不 是 一 个 有 吸引 力 的 选择 〈 例 如 ， 使 用 电池 供电 的 便携 式 电话 中 的 处 理 器 )。 

一 个 指令 集 可 以 设计 成 不 允许 任意 操作 数 吗 ? 如 果 是 这 样 ， 那 么 对 于 通用 计算 应 该 使 用 
的 最 小 操作 数 是 多 少 ? 早期 的 计算 机 每 条 指令 只 有 一 个 操作 数 。 后 来 计算 机 引入 了 指令 集 ， 
将 每 个 指令 限制 为 两 个 操作 数 。 令 人 惊讶 的 是 ， 计 算 机 也 存在 本 身 没 有 操作 数 的 指令 。 最 
后 ， 正 如 我 们 在 前 一 章 中 看 到 的 ， 一 些 处 理 器 将 指令 限制 为 三 个 操作 数 。 


7.3 每 指令 零 操 作 数 


指令 没有 操作 数 的 架构 称 为 0- 地 址 架构 。 体 系 结构 如 何 允 许 不 指定 任何 操作 数 的 指 
令 ? 答案 是 操作 数 必须 是 隐 式 的 。 也 就 是 说 ,操作 数 的 位 置 是 已 知 的 。0- 地 址 架构 也 称 为 
堆栈 架构 ， 因 为 操作 数 保存 在 运行 时 堆栈 中 。 例 如 ，ada 指令 从 堆栈 顶部 取 两 个 值 ， 将 它们 
相 加 ， 然 后 将 结果 放 回 堆栈 。 当 然 ， 也 有 一 些 例外 ， 堆 栈 计 算 机 中 的 一 些 指令 允许 程序 员 指 
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定 一 个 操作 数 。 例 如 ， 大 多 数 0- 地 址 架构 包括 一 条 在 堆栈 顶部 插入 一 个 新 值 的 push 指令 ， 
一 条 从 堆栈 顶部 移出 值 并 存 信 内存 的 pop 


指令 。 因 此 ， 在 堆栈 机 器 上 ， 要 给 变量 X push X 
加 7， 可 以 使 用 类 似 于 图 7.1 中 示例 的 一 push7 
系列 指令 。 Rn 

堆栈 架构 的 主要 缺点 源 于 对 内 存 的 使 这 
用 一 一 从 内 存 中 获取 操作 数 所 用 的 时 间 比 图 7.1 堆栈 计算 机 上 用 于 向 变量 x 加 7 的 指令 示 
从 处 理 器 的 寄存 器 中 获取 操作 数 要 长 得 SR 
多 。 后 面 的 部 分 讨论 这 个 概念 ;现在 ， 理 堆栈 中 找到 指令 (例如 add 指令 ) 的 操作 数 
解 计 算 机 行业 为 什么 已 经 摆脱 堆栈 架构 就 
足够 了 。 


7.4 每 指令 单 操作 数 

将 每 条 指令 限制 为 单个 操作 数 的 架构 归 类 为 1- 地 址 设计 。 本 质 上 ，1- 地 址 设计 依赖 于 
每 个 指令 的 一 个 隐 式 操作 数 一 一 称 为 累加 器 的 特殊 寄存 器 。 指 令 中 有 一 个 操作 数 ， 处 理 器 
使 用 累加 器 的 值 作为 第 二 个 操作 数 。 一 旦 操作 完成 ， 处 理 器 将 结果 放 回 累加 器 。 我 们 将 一 
条 指令 看 作 是 对 累加 器 中 的 值 进行 操作 。 例 如 ， 考 虑 算术 运算 。 假 设 加 法 指令 有 一 个 操作 
数 X: 

add X 
当 它 遇 到 该 指令 时 ， 处 理 器 执行 以 下 操作 : 
累加 器 全 累加 器 + XX 

当然 ，1- 地 址 处 理 器 的 指令 集 包 括 允 许 编程 人 员 将 常数 值 或 来 自 于 存储 器 的 值 加 载 到 累 

加 器 ， 或 将 累加 器 的 当前 值 保存 到 一 个 存储 器 位 置 的 指令 。 


7.5 每 指令 两 操作 数 
虽然 1- 地 址 设计 适用 于 算术 或 逻辑 运算 ， 但 它 不 允许 指令 指定 两 个 值 。 例 如 ， 考 虑 将 
值 从 一 个 存储 位 置 复制 到 另 一 个 存储 位 置 。1- 地 址 设计 需要 两 条 指令 将 值 加 载 到 累加 器 中 ， 
然后 将 值 存储 在 新 位 置 。 对 于 在 显示 内 存 中 移动 图 形 对 象 的 系统 ， 这 种 设计 尤其 效率 低下 。 
为 了 克服 1- 地 址 系统 的 局 限 性 ,设计 人 员 发 明了 允许 每 条 指令 具有 两 个 地 址 的 处 理 器 。 
这 种 方法 称 为 2- 地 址 架构 。 对 于 2- 地 址 处 理 器 ， 可 以 将 操作 应 用 于 指定 的 值 ， 而 不 仅仅 应 
用 于 累加 器 。 因 此 ,在 2- 地 址 处 理 器 中 ， 
add X Y 
指定 将 x 的 值 添 加 到 Y 的 当前 值 : 
YeY+X 
因为 它 允 许 指令 指 定 两 个 操作 数 ， 所 以 2- 地 址 处 理 器 可 以 提供 数据 移动 指令 ， 将 操作 


日 可 以 认为 第 5 章 讨论 的 通用 寄存 器 是 原始 累加 器 概念 的 扩展 。 
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数 视 为 源 和 目标 。 例 如 ，2- 地 址 指令 可 以 将 数据 从 位 置 o 直接 复制 到 位 置 Re : 
move Q R 


7.6 每 指令 三 操作 数 
尽管 2- 地 址 设计 可 以 处 理 数据 移动 ， 但 是 可 以 进一步 优化 ， 特 别 是 对 于 具有 多 个 通用 

寄存 器 的 处 理 器 ， 人 允许 每 条 指令 指定 三 个 操作 数 。 与 2- 地 址 设计 不 同 ，3- 地 址 架构 的 关键 
动机 不 是 来 自 需要 三 个 输入 值 的 操作 。 相 反 ， 主 要 是 第 三 个 操作 数 可 以 指定 一 个 目标 。 例 
如 ， 加 法 操作 可 以 指定 要 相 加 的 两 个 值 以 及 结果 的 目标 位 置 : 

add X Y Z 
指定 了 一 个 赋值 : 

ZX+Y 


7.7 ”操作 数 来 源 和 立即 数 

上 面 的 讨论 集中 在 每 条 指令 可 以 具有 的 操作 数 的 数量 ， 而 没有 指定 操作 数 的 确切 细节 。 
我 们 知道 ， 一 条 指令 对 每 个 操作 数 都 有 一 个 位 字段 ， 但 是 问题 在 于 如 何 解释 这 些 位 。 指 令 中 
每 种 类 型 的 操作 数 是 如 何 表示 的 ? 所 有 的 操作 数 都 使 用 相同 的 表示 吗 ? 一 种 给 定 表示 有 什么 
语义 吗 ? 

要 理解 这 个 问题 ， 请 注意 用 作 操作 数 的 数据 值 
可 以 通过 多 种 方式 获得 。 图 7.2 列 出 了 3- 地 址 处 理 。。「 最 代数 作为 二 (在 操作 中 使 用 的 项 ) 


器 中 操作 数 的 一 些 可 能 性 2 。 - 指令 中 的 一 个 有 符号 常量 。 
如 图 7.2 所 示 ， 大 多 数 体系 结构 允许 操作 数 为 “ 指令 中 的 一 个 无 符号 常量 。 
常量 。 尽 管 操作 数字 段 很 小 ， 但 显 式 常量 很 重要 ， re 
因为 程序 经 常 使 用 小 的 常量 (例如 ， 将 循环 索引 增 
加 1)。 在 指令 中 编码 一 个 常量 更 快 ， 并 且 需 要 更 操作 数 作为 目标 (用 于 保存 结果 的 位 置 ) 
少 的 寄存 器 。 “一 个 通用 寄存 器 。 
我 们 使 用 术语 “立即 数 ”来 指 代 一 个 常量 操作 。 | ”一 全 大 全 全 汪 站 和 和。 





数 。 一 些 体系 结构 将 立即 数 解 释 为 有 符号 数 ， 一 些 
则 将 其 解释 为 无 符号 数 ， 其 他 的 一 些 则 允许 程序 员 图 7.2 在 3- 地 址 处 理 器 中 操作 数 可 以 引 
指定 值 是 有 符号 数 还 是 无 符号 数 。 用 的 来 源 示例 。 源 操作 数 指定 一 


个 值 ， 目 标 操作 数 指定 一 个 位 置 
7.8 冯 ' 诺 依 曼 体系 结构 的 瓶颈 


回想 一 下 ， 在 内 存 中 存储 程序 和 数据 的 传统 计算 机 归 类 为 冯 . 诺 依 曼 体系 结构 。 操 作 数 
寻 址 暴露 了 汉 “ 诺 依 曼 体系 结构 的 核心 弱点 : 内 存 访问 可 能 成 为 瓶颈 。 也 就 是 说 ， 由 于 指令 
存储 在 内 存 中 ， 处 理 器 必须 每 条 指令 至 少 产 生 一 次 内 存 引用 。 如 果 一 个 或 多 个 操作 数 指定 了 
内 存 中 的 项 ， 那 么 处 理 器 必须 产生 额外 的 内 存 引用 以 读 取 或 写 入 值 。 为 了 优化 性 能 并 避免 瓶 


日 一 些 架构 师 保留 术语 2- 地 址 来 表示 两 个 操作 数 均 指定 内 存 位 置 的 指令 ， 对 于 其 中 一 个 操作 数 在 内 存 中 而 另 
一 个 操作 数 在 寄存 器 中 的 情况 ， 使 用 术语 “1/- 地 址 ”。 

日 为 了 提高 性 能 ， 现 代 3- 地 址 架构 通常 限制 操作 数 ， 使 得 给 定 指令 中 的 至 多 一 个 操作 数 指 的 是 内 存 中 的 某 个 
位 置 ， 另 外 两 个 操作 数 必须 指定 寄存 器 。 
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颈 ， 操 作 数 必须 取 自 寄存 器 而 不 是 内 存 。 
要 点 在 于 : 


在 遵循 冯 ， 诺 依 曼 体系 结构 的 计算 机 上 ， 访问 内 存 的 时 间 会 限制 整体 性 能 。 架 构 师 
使 用 术语 冯 ， 9 光栅 和 计生 况 ， 并 对 寺 择 在 守 丰 中 人 和 
免 痢 颈 。 2 Re ee 2 让 和 于 


省 





7.9 显 式 和 隐 式 操作 数 编码 


操作 数 应 该 如 何在 指令 中 表示 ? 该 指令 为 每 个 操作 数 包含 一 个 位 字段 ,但 是 架构 师 必 须 
明确 指出 这 些 位 的 含义 (例如 ， 它 们 是 否 包含 立即 数 、 寄 存 器 编号 或 存储 器 地 址 )。 计 算 机 
架构 师 对 操作 数 有 两 种 解释 ， 隐 式 和 显 式 。 接 下 来 将 介绍 每 种 方法 。 


7.9.1 隐 式 操作 数 编码 


隐 式 操作 数 编 码 最 容易 理解 . 操作 码 指定 操作 数 的 类 型 。 也 就 是 说 ， 使 用 隐 式 编码 的 处 
一 个 给 个 可 能 的 操作 数组 合 。 例 
如 ,图 7.3 列 出 了 可 能 由 使 用 隐 式 操作 数 编码 的 处 理 器 提供 的 三 条 加 法 指令 。 

















操作 码 
Add register 
Add immediate signed 





Add immediate unsigned 





Add memory + memory[M] 
图 7.3 使 用 隐 式 操作 数 编码 的 2- 地 址 处 理 器 的 加 法 指令 示例 。 每 个 可 能 的 操作 数组 合 使 用 一 
个 单独 的 操作 码 


如 图 7.3 所 示 ， 并 非 所 有 的 操作 数 都 需要 具有 相同 的 解释 。 例 如 ， 考 虑 add 
immediate signed 指令 。 该 指令 需要 两 个 操作 数 : 第 一 个 操作 数 解 释 为 一 个 寄存 器 编号 ， 
第 二 个 解释 为 一 个 有 符号 整数 。 


7.9.2 显 式 操作 数 编码 


隐 式 编码 的 主要 缺点 在 图 7.3 中 很 明显 : 一 个 给 定 操 作 需 要 多 个 操作 码 。 事 实 上 ， 每 个 
操作 数组 合 都 需要 一 个 单独 的 操作 码 。 如 果 处 理 器 使 用 许多 类 型 的 操作 数 ， 那 么 这 组 操作 码 
可 能 非常 大 。 作 为 替代 ， 显 式 操 作 数 编码 会 将 类 型 信息 与 每 个 操作 数 关联 起 来 。 图 7.4 说 明 
了 使 用 显 式 操 作 数 编码 的 体系 结构 的 两 条 加 法 指令 的 格式 。 


操作 码 操作 数 1 操作 数 2 





操作 码 操作 数 1 操作 数 2 


图 7.4 使 用 显 式 编码 的 体系 结构 上 的 操作 数 示例 。 每 个 操作 数 都 指定 一 个 类 型 和 一 个 值 
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如 图 7.4 所 示 ， 操 作 数 字段 分 为 两 个 子 字段 : 一 个 指定 操作 数 的 类 型 ， 另 一 个 指定 一 
个 值 。 例 如 ， 引 用 寄存 器 的 操作 数 以 类 型 字段 开头 ， 该 字段 指定 其 余 位 将 被 解释 为 寄存 器 
编号 。 


7.10 组 合 多 个 值 的 操作 数 


上 面 的 讨论 意味 着 每 个 操作 数 由 从 寄存 器 、 存 储 器 或 指令 本 身 提取 的 单个 值 组 成 。 有 些 
处 理 器 确实 将 每 个 操作 数 限制 为 单个 值 。 但 是 ， 其 他 处 理 器 提供 的 硬件 可 以 通过 提取 并 组 合 
多 个 来 源 的 值 来 计算 操作 数值 。 通 常 ， 硬 件 计算 几 个 值 的 总 和 。 

一 个 例子 将 有 助 于 阐明 硬件 如 何 处 理由 多 个 值 组 成 的 操作 数 。 一 种 方法 称 为 寄存 器 - 偏 
移 量 机 制 。 这 个 想法 很 简单 : 每 个 操作 数 不 是 由 类 型 和 值 两 个 子 字段 组 成 ， 而 是 由 三 个 字段 
组 成 ， 分 别 指定 寄存 器 - 偏 移 量 类 型 、 寄 存 器 和 偏 移 量 。 当 它 提 取 一 个 操作 数 时 ， 处 理 器 将 
偏 移 量 字 段 的 内 容 加 到 指定 寄存 器 的 内 容 中 以 获得 一 个 值 ， 然 后 将 该 值 用 作 操 作 数 。 图 7.5 
显示 了 带 寄 存 器 - 偏 移 量 操作 数 的 加 法 指令 例子 。 


操作 码 
寄存 器 --: 
加 法 操作 偏 移 量 : 8 


图 7.5 一 个 加 法 指令 的 例子 ， 其 中 每 个 操作 数 由 一 个 寄存 器 和 一 个 偏 移 量 组 成 。 在 操作 数 提 
取 期 间 ， 硬 件 将 偏 移 量 加 到 指定 的 寄存 器 以 获取 操作 数 的 值 


在 图 7.5 中 ， 第 一 个 操作 数 指定 寄存 器 2 的 内 容 减 去 常数 17， 第 二 个 操作 数 指定 寄存 器 
4 的 内 容 加 常数 76。 当 我 们 讨论 内 存 时 ， 我 们 会 看 到 ， 在 引用 一 个 数据 聚合 类 型 (如 C 语言 
的 结构 体 ) 时 ， 人 允许 通过 指定 一 个 寄存 器 加 上 一 个 偏 移 量 形成 一 个 操作 数 特别 有 用 ， 因 为 指 
向 该 结构 的 指针 可 以 留 在 寄存 器 中 ， 偏 移 量 用 于 引用 单个 项 。 


7.11 权衡 操作 数 的 选择 


上 面 的 讨论 并 不 令 人 满意 一 一 我 们 似乎 列 出 了 许多 设计 可 能 性 , 但 没有 关注 采用 哪 种 方 
法 。 事 实 上 ， 没 有 最 好 的 选择 ， 我 们 讨论 的 每 种 操作 数 风格 都 被 用 于 实践 。 为 什么 没有 一 种 
特定 的 风格 成 为 最 佳 ? 答案 很 简单 : 每 种 风格 都 代表 了 编程 简易 性 、 代 码 大 小 、 处 理 速度 和 
硬件 复杂 性 之 间 的 权衡 。 接 下 来 的 段落 讨论 几 个 潜在 的 设计 目标 ， 并 解释 其 与 操作 数 的 选择 
有 何 关系 。 

易于 编程 。 复 杂 形 式 的 操作 数 使 编程 变 得 更 加 简单 。 例 如 ， 我 们 说 允许 一 个 操作 数 指定 
一 个 寄存 器 加 上 一 个 偏 移 量 ， 使 得 数据 聚合 引用 变 得 简单 。 类 似 地 ，3- 地 址 方法 提供 了 显 式 
指定 目标 的 手段 ， 程 序 员 不 需要 编写 单独 的 指令 来 将 结果 复制 到 其 最 终 目的 地 。 当 然 ， 为 了 
优化 编程 的 简易 性 ， 架 构 师 需要 权衡 其 他 方面 。 

更 少 的 指令 数量 。 增 加 操作 数 的 表达 能 力 可 以 减少 程序 中 的 指令 数量 。 例 如 ， 人 允许 操作 
数 指定 一 个 寄存 器 和 一 个 偏 移 量 意 味 着 程序 不 需要 使 用 额外 的 指令 实现 偏 移 量 与 寄存 器 值 的 
相 加 。 增 加 每 条 指令 的 地 址 数量 也 会 降低 指令 的 数量 (例如 ，3- 地 址 处 理 器 比 2- 地 址 处 理 
器 需要 更 少 的 指令 )。 不 幸 的 是 ， 更 少 的 指令 需要 权衡 更 大 的 指令 长 度 。 

更 小 的 指令 长 度 。 限 制 操作 数 的 数量 、 操 作 数 类 型 的 集合 或 操作 数 的 最 大 长 度 使 每 条 指 
令 长 度 保持 较 小 ， 因 为 需要 更 少 的 位 来 标识 操作 数 类 型 或 表示 操作 数值 。 特 别 是 ， 只 指定 寄 
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存 器 的 操作 数 的 位 将 小 于 指定 寄存 器 和 偏 移 量 的 操作 数 的 位 。 因 此 ， 一 些 最 小 的 、 功 能 最 少 
的 处 理 器 将 操作 数 限制 为 寄存 器 一 一 除了 加 载 和 存储 操作 外 ， 程 序 中 使 用 的 每 个 值 必须 来 自 
寄存 器 。 不 幸 的 是 ， 使 每 条 指令 减 小 会 降低 表达 能 力 ， 因 此 会 增加 所 需 的 指令 数量 。 

更 大 范围 的 立即 数值 。 回 想 第 3 章 ， 一 串 大 位 可 以 容纳 入 个 可 能 的 值 。 因 此 ， 分 配给 
操作 数 的 位 数 决 定 了 可 以 指定 的 立即 数 的 数值 范围 。 增 加 立即 数 的 范围 会 产生 更 长 的 指令 。 

更 快 的 操作 数 取 指 和 解码 。 限 制 操作 数 的 数量 和 每 个 操作 数 的 可 能 类 型 ， 人 允许 硬件 更 快 
地 运行 。 例 如 ， 为 了 最 大 限度 地 提高 速度 ， 架 构 师 避免 了 寄存 器 - 偏 移 量 设 计 ， 因 为 硬件 从 
一 个 寄存 器 获取 操作 数 的 速度 远 快 于 计算 寄存 器 加 偏 移 量 之 后 获取 操作 数 的 速度 。 

降低 硬件 尺寸 和 复杂 性 。 集 成 电路 上 的 空间 有 限 ， 架 构 师 必须 决定 如 何 使 用 该 空间 。 解 
码 复杂 形式 的 操作 数 比 解码 更 简单 的 形式 需要 更 多 的 硬件 。 因 此 ， 限 制 操作 数 的 类 型 和 复杂 
性 会 减 小 所 需 电路 的 大 小 。 当 然 ， 选 择 代表 一 种 权衡 : 程序 会 更 大 。 

要 点 是 : 





7.12 内存 中 的 值 和 间接 引用 

处 理 器 必须 提供 一 种 访问 内 存 中 值 的 方法 。 也 就 是 说 ， 至 少 有 一 条 指令 必须 有 一 个 操作 
数 ， 硬 件 将 其 解释 为 内 存 地 址 (本 书 的 第 三 部 分 描述 了 内 存 和 内 存 寻 址 )。 访 问 内 存 中 的 值 
比 访问 寄存 器 中 的 值 要 昂贵 得 多 。 虽 然 它 可 能 会 使 编程 更 容易 ， 但 每 个 指令 引用 内 存 的 设计 
通常 会 导致 性 能 下 降 。 因 此 ， 程 序 员 通 常会 构造 代码 将 常用 值 保留 在 寄存 器 中 ， 并 仅 在 需要 
时 引用 内 存 。 

有 些 处 理 器 通过 人 允许 各 种 形式 的 间接 寻 址 来 扩展 内 存 引 用 。 例 如 ， 指 定 通过 寄存 器 6 进 
行 间接 寻 址 的 操作 数 会 导致 处 理 器 执行 两 个 步 又; 

。 获取 4， 即 寄存 器 6 中 的 当前 值 。 

。 将 4 解释 为 内 存 地 址 ， 并 从 内 存 中 获取 操作 数 。 

操作 数 的 一 种 极端 形式 涉及 双重 间接 引用 ， 或 通过 内 存 位 置 间接 寻 址 。 也 就 是 说 ， 处 理 
器 将 操作 数 解释 为 内 存 地 址 M。 但 是 ， 处 理 器 不 是 将 值 读 入 或 存储 到 地 址 M， 而 是 假定 M 
包含 指定 值 的 内 存 地 址 。 在 这 种 情况 下 ， 处 理 器 执行 以 下 步骤 : 

。 获取 M， 即 操作 数 本 身 的 值 。 

。 将 M 解 释 为 内 存 地 址 ， 并 从 内 存 中 获取 值 4。 

。 将 4 解释 为 男 一 个 内 存 地 址 ， 并 从 内 存 中 获取 操作 数 。 

当 程 序 必须 追踪 内 存 中 的 链表 时 ， 使 用 双向 间接 引用 通过 一 个 内 存 位 置 到 另 一 个 内 存 位 
置 会 非常 有 用 ， 但是， 开销 非 常 高 (执行 单个 指令 需要 多 次 内 存 引 用 )。 


7.13 ”操作 数 寻 址 模式 的 示例 


处 理 器 通常 包含 一 个 特殊 的 内 部 寄存 器 ， 称 为 指令 寄存 器 ， 用 于 在 指令 解码 时 保存 指 
令 。 可 以 通过 考虑 操作 数位 置 和 获取 该 值 所 需 的 引用 ， 设 想 每 种 操作 数 地 址 的 类 型 和 成 本 。 
立即 数 是 最 廉价 的 ， 因 为 该 值 位 于 指令 寄存 器 中 ( 即 ， 在 指令 本 身 中 )。 通 用 寄存 器 引用 比 
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立即 数 的 开销 稍 大 。 对 存储 器 的 引用 比 对 寄存 器 的 引用 要 更 昂贵 。 最 后 ， 需 要 两 次 内 存 引用 
的 双重 间接 引用 是 最 昂贵 的 。 图 7.6 列 出 了 可 能 情况 ， 并 说 明了 解决 这 些 问题 的 硬件 单元 。 


cpu 


内 存 中 的 位 置 


1 立即 数 ( 位 于 指令 中 ) 
2 寄存 器 直接 引用 

3 内 存 直接 引用 

4 寄存 器 间接 引用 

5 内 存 间 接 引用 


图 7.6 在 各 种 寻 址 模式 下 获取 操作 数 时 访问 的 硬件 单元 的 示意 图 。 间 接 引 用 需要 比 直接 引用 
更 长 的 时 间 





在 图 7.6 中 ,模式 3 和 模式 5 都 要 求 指令 包含 一 个 内 存 地 址 。 虽 然 它们 在 早期 的 计算 机 
上 可 用 ， 但 这 种 模式 已 变 得 不 受 欢 迎 ， 因 为 它们 需要 相当 长 的 指令 。 


7:14 J 小结 


设计 处 理 器 时 ， 架 构 师 会 为 每 条 指令 选择 操作 数 的 数量 和 可 能 的 类 型 。 为 了 使 操作 数 处 
理 高 效 ， 许 多 处 理 器 将 给 定 指令 的 操作 数 限制 为 3 个 或 更 少 。 

立即 操作 数 指定 一 个 常数 值 ， 其 他 可 能 操作 数 包括 指定 使 用 寄存 器 的 内 容 或 内 存 中 的 
值 。 间 接 引用 允许 寄存 器 包含 操作 数 的 内 存 地 址 。 双 重 间接 引用 意味 着 操作 数 指定 一 个 内 存 
地 址 ， 并 且 地 址 处 的 值 是 指向 保存 该 值 的 另 一 个 内 存 位 置 的 指针 。 操 作 数 的 类 型 可 以 隐 式 编 
码 ( 即 ， 在 操作 码 中 ) 或 显 式 编码 。 

存在 许多 变 体 ， 因 为 操作 数 数量 和 类 型 的 选择 代表 了 功能 性 、 编 程 简易 性 和 工艺 细节 
(如 处 理 速 度 ) 之 间 的 权衡 。 


习题 

7.1 假设 一 位 计算 机 架构 师 正 在 为 内 存 极其 缓慢 的 计算 机 设计 处 理 器 。 架 构 师 会 选择 0- 地 址 架构 
吗 ? 请 说 明理 由 。 

7.2 ”考虑 内 存 中 指令 的 大 小 。 如 果 体 系 结构 允许 立即 操作 数 具有 较 大 的 数值 ， 则 指令 会 占用 更 多 的 空 
间 。 为 什么 ? 

7.3 ”假设 堆栈 机 器 将 堆栈 保存 在 内 存 中 。 同 时 ,假设 变量 p 存储 在 内 存 中 。 需 要 多 少 次 内 存 引 用 才能 
将 p 增 加 7? 

7.4 假设 两 个 整数 x 和 ?存储 在 内 存 中 ， 并 考虑 将 z 设置 为 x* 与 ?之 和 的 指令 。 在 2- 地 址 架构 上 需要 
多 少 次 内 存 引用 ? 提示 : 请 记 住 包含 取 指 令 。 

7.5 如 果 每 个 操作 数 指定 内 存 间 接 引 用 ， 则 需要 多 少 次 内 存 操作 才能 在 3- 地 址 架构 上 执行 一 次 加 法 
操作 ? 
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如 果 程 序 员 要 将 一 个 变量 与 一 个 常数 相 加 ， 而 该 常数 的 值 超过 了 立即 数 的 最 大 值 ， 一 个 优化 的 编 
译 器 可 能 会 生成 两 条 指令 。 例 如 ， 在 只 允许 127 或 更 小 的 立即 数 的 计算 机 上 ， 将 变量 x 递增 140 


load r7,x 

add_immediate r7, 127 

add_immediate t7, 13 

store IT7,X 
为 什么 编译 器 不 将 值 140 存储 在 内 存 中 ， 然 后 将 值 加 到 寄存 器 7 上 ? 
假定 一 个 内 存 引 用 需要 的 时 间 开 销 是 一 个 寄存 器 引用 时 间 开 销 的 12 倍 ， 并 且 假 定 一 个 程序 在 一 
个 2- 地 址 架构 上 执行 Y 条 指令 。 请 比较 所 有 操作 数 都 在 寄存 器 中 时 程序 的 运行 时 间 与 所 有 操作 
数 在 内 存 中 时 程序 的 运行 时 间 。 提 示 : 取 指 令 需 要 内 存 操作 。 
考虑 图 7.6 所 示 的 每 种 类 型 的 操作 数 ， 并 创建 一 个 表 ， 写 出 表示 操作 数 所 需 的 位 数 的 表达 式 。 提 
示 : 表示 从 0 到 N 的 值 所 需 的 位 数 是 
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指出 每 条 指令 使 用 更 多 地 址 的 一 个 优点 。 

考虑 一 个 使 用 隐 式 操作 数 的 2- 地 址 计算 机 。 假 设 两 个 操作 数 中 的 一 个 可 以 是 图 7.6 中 的 五 种 操 
作 数 类 型 中 的 任何 一 个 ， 另 一 个 可 以 是 除 立 即 数 外 的 任何 操作 数 类 型 。 列 出 计算 机 所 需 的 所 有 
加 法 指令 。 

大 多 数 编译 器 都 包含 优化 模块 ， 它 们 选择 将 常用 变量 保存 在 寄存 器 中 ， 而 不 是 将 它们 写 回 内 存 。 
这 个 优化 模块 试图 克服 的 问题 是 什么 ? 
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8.1 引言 


前 面 的 章节 考虑 处 理 器 的 两 个 关键 方面 一 一 指令 集 和 操作 数 ， 解 释 了 可 行 的 方法 ， 并 讨 
论 每 种 方法 的 优 缺点 。 本 章 考 虑 一 大 类 通用 处 理 器 ， 并 说 明 前 几 章 中 的 许多 概念 的 应 用 。 下 
一 章 将 考虑 与 处 理 器 一 起 使 用 的 低级 编程 语言 。 


8.2 中 央 处 理 器 


在 计算 机 历史 的 早期 ， 集 中 化 就 成 为 一 种 重要 的 架构 方法 一 将 尽 可 能 多 的 功能 集中 到 
单一 处 理 器 中 。 该 处 理 器 被 称 为 中 央 处 理 器 (CPU)， 可 控制 整个 计算 机 ， 包 括 计算 和 IO。 

与 早期 设计 相 比 ， 现 代 计 算 机 系统 采用 去 中 心 化 的 方法 。 该 系统 包含 多 个 处 理 器 ， 其 中 
许多 处 理 器 专用 于 特定 功能 或 硬件 子 系统 。 例 如 ， 我 们 将 看 到 ， 一 个 IO 设备 (如 磁盘 ) 可 
以 包含 处 理 磁盘 传输 的 处 理 器 。 

尽管 模式 发 生 了 变化 ， 但 由 于 有 一 个 芯片 包含 用 于 执行 大 多 数 计算 、 协 调和 控制 其 他 处 
理 器 的 硬件 ， 所 以 术语 CPU 仍然 存在 。 本 质 上 ，CPU 管理 整个 系统 ， 告 诉 其 他 处 理 器 何 时 
开始 、 何 时 停止 以 及 如 何 操作 。 在 讨论 IO 时 ， 我 们 会 看 到 CPU 如 何 控制 外 围 设备 和 处 理 
器 的 操作 。 


8.3 CPU 的 复杂 性 


因为 必须 处 理 各 种 各 样 的 控制 和 处 理 任务 ， 所 以 现代 CPU 非常 复杂 。 人 例如， 英特尔 制 
造 了 一 个 含有 25 亿 个 晶体 管 的 CPU 芯片 。 为 什么 CPU 会 如 此 复杂 ? 为 什么 需要 这 么 多 晶 
体 管 ? 

多 个 核心 。 事 实 上 ， 现 代 CPU 芯片 不 仅 包含 一 个 处 理 器 。 相 反 ， 它 们 包含 多 个 称 为 核 
的 处 理 器 。 核 全 部 并 行 工 作 ， 人 允许 多 个 计算 同时 进行 。 高 性 能 需要 使 用 多 核 设 计 ， 因 为 单个 
内 核 并 不 能 以 任意 高 速 时 钟 脉冲 运行 。 

多 重 角 色 。CPU 复杂 性 的 一 个 方面 是 因为 CPU 必须 承担 多 个 主要 角色 : 运行 应 用 程序 ， 
运行 操作 系统 ， 处 理 外 部 IO 设备 ， 启 动 或 停止 计算 机 ， 以 及 管理 内 存 。 没 有 哪个 单一 指令 
集 对 所 有 角色 都 是 最 佳 的 ， 因 此 CPU 通常 包含 许多 指令 。 

保护 和 特权 。 大 多 数 计算 机 系统 都 包含 一 个 保护 系统 ， 使 得 某 些 子 系统 比 其 他 系统 具有 
更 高 的 权限 。 例 如 ， 硬 件 可 以 防止 应 用 程序 直接 与 IO 设备 交互 ， 并 且 可 以 防止 操作 系统 代 
码 被 无 意 或 故意 改变 。 

硬件 优先 级 。CPU 使 用 一 种 优先 级 方案 ， 其 中 某 些 操作 被 赋予 比 其 他 操作 更 高 的 优先 
级 。 例 如 ， 我 们 将 看 到 ，LO 设备 的 运行 优先 级 高 于 应 用 程序 一 一 如 果 CPU 正在 运行 应 用 程 
序 ， 在 一 个 IO 设备 需要 服务 时 ，CPU 必须 停止 运行 应 用 程序 并 处 理 该 设备 。 

通用 性 。CPU 被 设计 为 支持 各 种 各 样 的 应 用 程序 。 因 此 ，CPU 指令 集 通常 包含 用 于 每 





种 类 型 应 用 的 指令 ( 即 CISC 设计 )。 

数据 长 度 。 为 了 加 速 处 理 ，CPU 设计 用 于 处 理 长 数据 值 。 回 想 一 下 第 2 章 中 的 数字 逻 
辑 门 ， 每 个 门 都 在 一 位 数据 上 进行 操作 ， 并 且 必 须 复 制 门 以 处 理 整数 。 因 此 ， 为 了 操作 由 
64 位 构成 的 值 ，CPU 中 的 每 个 数字 电路 必须 具有 每 个 门 的 64 个 副本 。 

高 速 。 最 终 也 可 能 是 最 重要 的 ，CPU 的 复杂 性 源 于 对 速度 的 期 望 。 回 想 一 下 前 面 讨论 
的 重要 概念 : 


并 行 是 用 于 创建 高 速 硬件 的 基本 技术 。 


也 就 是 说 ， 要 达到 最 高 性 能 ， 必 须 复 制 CPU 中 的 功能 单元 ， 并 且 设 计 必 须 允 许 复制 单 
元 同时 运行 。 需 要 大 量 并 行 硬件 使 现代 CPU 以 最 高 速度 运行 ,这 也 意味 着 CPU 需要 许多 品 
体 管 。 我 们 将 在 本 章 后 面 看 到 进一步 的 解释 。 


8.4 执行 模式 

上 面 列 出 的 功能 可 以 组 合 或 单独 实施 。 例 如 ， 可 以 。 有 效 的 指令 子 集 。 

避 全 ; 方 品 | 存 人 。 数据 项 的 大 小 。 
授予 个 给 定 的 核 有 或 没有 更 高 的 优先 权 去 访问 存储 器 ee 
的 其 他 部 分 。 GP 如 何 容纳 所 有 功能 ， 让 程序 员 能 够 。 可 用 的 功能 单元 。 
理解 和 使 用 它们 而 不 会 感到 困惑 ? 。 特权 的 数量 





在 大 多 数 CPU 中 ， 硬 件 使 用 一 组 参数 来 处 理 复杂 
性 和 控制 操作 。 我 们 说 硬件 有 多 种 执行 模式 。 在 任何 给 
定时 间 ， 当 前 的 执行 模式 决定 了 CPU 如 何 操作 。 图 8.1 
列 出 了 通常 与 CPU 执行 模式 相关 的 项 。 


8.5 向 后 兼容 性 


执行 模式 可 以 引入 多 少 变 化 ? 原则 上 ，CPU 上 可 用 的 模式 不 需要 共享 太 多 共同 点 。 作 
为 一 种 极端 情况 ， 某 些 CPU 具有 与 之 前 型 号 向 后 兼容 的 模式 。 向 后 兼容 性 允许 供应 商 销售 
具有 新 功能 的 CPU， 但 也 允许 客户 使 用 CPU 运行 旧 软 件 。 

英特尔 的 处 理 器 系列 ( 即 8086、186、286… ) 例证 了 如 何 使 用 向 后 兼容 性 。 当 英特尔 
首次 推出 以 32 位 整数 运行 的 CPU 时 ， 其 中 包含 兼容 模式 ， 该 模式 实现 了 来 自 英特尔 之 前 的 
CPU 的 16 位 指令 集 。 除 了 使 用 不 同 大 小 的 整数 外 ， 这 两 种 架构 还 有 不 同 数 量 的 寄存 器 和 不 
同 的 指令 。 这 两 种 架构 差别 很 大 ， 因 此 最 简单 的 方法 是 将 设计 看 作 具 备 执 行 模 式 的 两 个 独立 
的 硬件 ， 可 以 随时 决定 使 用 哪 一 个 。 

我 们 可 以 总 结 一 下 : 


图 8.1 通常 由 CPU 执行 模式 控制 
的 项 。 当 模式 改变 时 ，CPU 
的 特性 会 发 生 显著 变化 










执行 模式 来 确定 当前 的 操作 特性 。 在 一 些 CPU 中 ， 模 式 的 特性 差别 
2PU 具有 独立 的 硬件 子 系统 ， 模 式 决定 了 当前 使 用 哪些 硬件 。 





8.6 改变 模式 


CPU 如 何 改变 执行 模式 ?有 两 种 方法 : 
。 自动 (由 硬件 启动 )。 
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。 手动 (在 程序 控制 下 )。 

自动 的 模式 改变 。 外 部 硬件 可 以 改变 CPU 的 模式 。 例 如 ， 当 IO 设备 请 求 服务 时 ， 硬 
件 会 通知 CPU。 在 服务 该 设备 之 前 ，CPU 中 的 硬件 会 自动 改变 模式 (并 跳 转 到 操作 系统 代 
码 )。 当 我 们 考虑 IO 如 何 工 作 时 ， 可 以 学 到 更 多 。 

手动 的 模式 改变 。 实 质 上 ， 手 动 改 变 是 在 运行 程序 的 控制 下 发 生 的 。 大 多 数 情况 下 ， 该 
程序 是 操作 系统 ， 它 在 执行 一 个 应 用 程序 之 前 更 改 模式 。 但 是 ， 某 些 CPU 还 提供 了 应 用 程 
序 可 以 使 用 的 多 种 模式 ， 并 允许 应 用 程序 在 这 些 模式 之 间 切 换 。 

什么 机 制 可 用 来 改变 模式 ? 目前 已 有 三 种 方法 。 在 最 简单 的 情况 下 ，CPU 包含 设置 当 
前 模式 的 指令 。 在 其 他 情况 下 ，CPU 包含 一 个 专用 模式 寄存 器 来 控制 模式 。 为 了 改变 模式 ， 
程序 将 一 个 值 存 人 模式 寄存 器 。 请 注意 ， 模 式 寄 存 器 在 正常 意义 上 不 是 存储 单元 。 相 反 ， 它 
由 一 个 硬件 电路 组 成 ， 通 过 改变 工作 模式 来 响应 存储 命令 。 最 后 ， 模 式 改变 可 以 作为 另 一 条 
指令 的 副作用 发 生 。 例 如 ， 在 大 多 数 CPU 中 ， 指 令 集 包含 一 条 指令 ， 应 用 程序 使 用 它 产 生 
操作 系统 调用 。 每 当 指令 执行 时 ， 模 式 改变 自动 发 生 。 

为 了 适应 模式 的 重大 变化 ， 可 能 需要 额外 的 设施 来 准备 新 模式 。 例 如 ， 考 虑 这 样 一 种 情 
况 ， 两 种 执行 模式 不 共享 通用 寄存 器 (例如 ， 在 一 种 模式 下 ， 寄 存 器 包含 16 位 ， 在 另 一 种 
模式 下 ， 寄存器 包含 32 位 )。 在 更 改 模式 和 使 用 寄存 器 之 前 ， 将 值 放 和 人 备用 寄存 器 可 能 是 必 
要 的 。 在 这 种 情况 下 ，CPU 提供 特殊 指令 ， 人 允许 软件 在 更 改 模式 之 前 创建 或 修改 值 。 


8.7 ”特权 和 保护 


执行 模式 与 CPU 设施 的 特权 和 保护 关联 。 也 就 是 说 ， 当 前 模式 的 一 部 分 指定 了 CPU 的 
特权 级 别 。 例 如 ， 当 它 为 IO 设备 提供 服务 时 ，CPU 必须 允许 操作 系统 中 的 设备 驱动 程序 软 
件 与 设备 交互 并 执行 控制 功能 。 但 是 ， 必 须 防 止 任意 应 用 程序 意外 或 恶意 地 向 硬件 发 出 命令 
或 执行 控制 功能 。 因 此 ， 在 执行 应 用 程序 之 前 ， 操 作 系 统 会 更 改 模式 以 降低 权限 。 当 以 较 低 
特权 模式 运行 时 ，CPU 不 允许 直接 控制 VO 设备 ( 即 ，CPU 将 特权 操作 视 为 无 效 指令 )。 


8.8 多 级 保护 


需要 多 少 级 别 的 特权 ? 每 个 级 别 应 该 允许 哪些 操作 ? 多 年 来 ， 硬 件 架构 师 和 操作 系统 设 
计 师 一 直 在 讨论 这 个 问题 。 他 们 已 经 发 明了 无 保护 的 CPU， 以 及 提供 8 个 保护 级 别 的 CPU， 
每 个 级 别 都 比 前 一 级 具有 更 高 的 权限 。 保 护 的 想法 有 助 于 防止 问题 的 发 生 ， 它 基于 任何 时 候 
都 仅 使 用 最 小 数量 的 必要 特权 这 一 原则 。 我 们 可 以 总 结 一 下 : 


”通过 使 用 保护 机 制 来 限制 允许 的 操作 ，CPU 可 以 检测 到 执行 未 授权 操作 的 企图 。 


图 8.2 说 明了 两 个 特权 级 别 的 概念 
尽管 没有 一 一 种 保护 方案 可 适用 于 所 有 CPU， 但 设计 人 员 通常 认为 对 于 运行 应 用 程序 的 
CPU 至 少 具备 两 个 特权 级 别 : 


ea 


讨论 内 存 时 ， 我 们 会 看 到 保护 和 内 存 访 问 的 问题 是 交织 在 一 起 的 。 更 重要 的 是 ， 我 们 将 





六 横 


86 旬 二 部 分 处 理 过 


看 到 作为 CPU 模式 一 部 分 的 内 存 访问 机 制 如 何 提 供 其 他 形式 的 保护 。 


应 用 程序 1 应 用 程序 2 应 用 程序 N 





图 8.2 ”提供 两 级 保护 的 CPU 示意 图 。 操 作 系 统 以 最 高 权限 执行 ， 应 用 程序 以 较 低 权限 执行 


8.9 微 码 指令 


如 何 实现 复杂 的 CPU ? 有 趣 的 是 ， 用 于 构建 复杂 指令 集 的 关键 抽象 之 一 来 自 软 件 : 复 
杂 的 指令 可 以 编程 实现 ! 也 就 是 说 ，CPU 不 是 直接 用 数字 电路 来 实现 指令 集 ， 而 是 由 两 部 
分 组 成 。 首 先 ， 硬 件 架构 师 建立 一 个 快速 但 小 型 的 处 理 器 ， 称 为 微 控 制 器 8。 其次， 为 了 实 
现 CPU 指令 集 ( 称 为 宏 指令 集 )， 架 构 师 为 微 控制 器 编写 软件 。 运 行 在 微 控制 器 上 的 软件 称 
为 微 码 。 图 8.3 显示 了 两 级 组 织 ， 并 展示 了 如 何 实现 每 个 级 别 。 








对 程序 员 可 见 
宏 指令 集 
(由 微 码 实 现 ) 
隐藏 的 
pd eo 和 人 < 一 (内 部 的 ) 
(由 数字 逻辑 实现 ) 微 控制 器 


图 8.3 ”用 微 控制 器 实现 的 CPU 的 示意 图 ，CPU 提供 的 宏 指令 集 是 用 微 码 实现 的 


考虑 微 码 的 最 简单 方法 是 设想 一 组 函数 ， 每 个 函数 都 实现 一 条 CPU 宏 指令 。CPU 在 指 
令 执行 期 间 调用 微 码 。 也 就 是 说 ,一旦 它 获得 并 解码 了 宏 指令 ，CPU 就 调用 与 该 指令 对 应 
的 微 码 程序 。 

宏观 和 微观 架构 可 能 有 所 不 同 。 举 一 个 例子 ,假设 CPU 被 设计 为 对 32 位 的 数据 项 进行 
操作 ， 并 且 宏 指令 集 包 括 用 于 整数 加 法 的 add32 指令 。 进 一 步 假设 微 控 制 器 只 提供 16 位 
算术 运算 。 为 了 实现 32 位 加 法 ， 微 码 必须 一 次 加 16 位 ， 并 且 必 须 将 低位 中 的 进位 加 到 高 位 
中 。 图 8.4 列 出 了 需要 的 微 码 步 又。 


”小 型 处 理 器 也 称 为 微 处 理 器 ， 但 这 个 术语 有 点 误导 。 
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/* 下 面 的 步骤 假定 两 个 32 位 操作 数位 于 标记 为 R5 和 R6 的 寄存 器 中 ， 
并 且 微 码 必须 使 用 标记 为 r0 至 r3 的 16 位 寄存 器 来 计算 结果 。 
*/ 
add32: 
将 R5 的 低 16 位 移入 r2 
将 R6 的 低 16 位 移入 r3 
r2 和 r3 相 加 ， 将 结果 放 入 r1 


保存 进位 指示 器 的 值 
将 R5 的 高 位 16 位 移入 r2 
将 R6 的 高 16 位 移入 r3 
r2 和 rr3 相 加 ， 结 果 放 在 工 0 
将 r0 中 的 值 复制 到 r2 
将 r2 和 进位 位 相 加 ， 并 将 结果 放 入 r0 
检查 溢出 并 设置 条 件 代码 
将 r0 和 rl 的 32 位 结果 移 到 所 需 的 目的 地 
图 8.4 使 用 仅 具 有 16 位 算术 运算 的 微 控 制 器 实现 32 位 宏 加 法 指令 所 需 的 步骤 示例 ， 宏 观 和 


微观 架构 可 能 有 所 不 同 


确切 的 细节 并 不 重要 ， 图 8.4 说 明了 微 控 制 器 的 架构 和 宏 指令 集 显 著 不 同 。 还 要 注意 ， 
由 于 每 个 宏 指令 都 是 由 微 码 程 序 实现 的 ， 因 此 宏 指 令 可 以 执行 任意 处 理 。 例 如 ， 单 个 宏 指 令 
可 以 实现 三 角 函 数 (如 正弦 或 余弦 函数 )， 或 将 大 块 数据 移动 到 内 存 中 。 当 然 ， 为 了 获得 更 
高 的 性 能 ， 架 构 师 可 以 选择 限制 与 给 定 指令 对 应 的 微 码 量 。 


8.10 微 码 变 体 


计算 机 设计 人 员 已 经 发 明了 很 多 微 码 基 本 形式 的 变 体 。 例 如 ， 我 们 说 CPU 硬件 实现 了 
取 指 一 执行 周期 ， 并 为 每 条 指令 调用 一 个 微 码 程序 。 在 某 些 CPU 上 ， 微 码 实现 整个 取 指 - 
执行 周期 一 一 微 码 解释 操作 码 、 提 取 操 作 数 并 执行 指定 的 操作 。 其 优点 是 更 大 的 灵活 性 : 微 
码 定义 了 宏 系 统 的 所 有 方面 ， 包 括 宏 指 令 的 格式 以 及 每 个 操作 数 的 格式 和 编码 。 主 要 缺点 是 
性 能 较 差 : CPU 不 能 在 硬件 中 实现 指令 流水 线 。 

作为 男 一 种 变 体 ，CPU 被 设计 为 只 使 用 微 码 进行 扩展 。 也 就 是 说 ，CPU 具有 直接 用 数 
字 电 路 实现 的 完整 的 宏 指 令 集 。 此 外 ，CPU 还 有 一 小 组 附加 的 操作 码 ， 这 些 操作 码 是 用 微 
码 实现 的 。 因 此 ， 供 应 商 可 以 制造 基本 CPU 的 微小 变 体 (例如 ， 具 有 专门 针对 实现 安全 软 
件 的 客户 的 特殊 加 密 指令 的 版 本 ， 或 针对 实现 文本 处 理 软件 的 客户 的 特殊 模式 匹配 指令 的 版 
本 )。 如 果 部 分 或 全 部 额外 指令 未 在 特定 版 本 的 CPU 中 使 用 ， 供 应 商 可 能 会 插入 使 其 未 定义 
的 微 码 〈 即 ， 如 果 未 执行 未 定义 的 指令 ， 微 码 会 产生 错误 )。 


8.11 微 码 的 优势 


为 什么 使 用 微 码 ? 有 三 个 动机 。 首 先 ， 微 码 提供 了 更 高 的 抽象 级 别 ， 所 以 构建 微 码 比 构 
建 硬 件 电路 更 不 容易 出 错 。 其 次 ， 构 建 微 码 比 构建 电路 所 花 的 时 间 更 少 。 第 三 ， 改 变 微 码 比 
改变 硬件 电路 容易 ， 所 以 可 以 更 快 地 创建 CPU 的 新 版 本 。 

我 们 可 以 总 结 一 下 : 


。 使用 微 码 的 设计 不 太 窜 易 出 错 ， 并 且 可 以 
当然 ， 微 码 确实 有 一 些 缺 点 ， 抵 消 了 其 带 来 的 一 些 优点 : 
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。 微 码 比 硬件 实现 开销 更 大 。 
。 它 为 每 个 宏 指令 执行 多 条 微 指令 ， 因 此 微 控 制 器 的 运行 速度 要 远 高 于 CPU。 
。 宏 指 令 的 成 本 取决 于 微 指令 组 。 


8.12 ”FPGA 和 指令 集 的 改变 


由 于 微 控 制 器 是 旨 在 帮助 设计 人 员 的 一 种 内 部 机 制 ， 微 指令 集 通常 隐藏 在 最 终 设计 中 。 
微 控 制 器 和 微 码 一 般 与 CPU 的 其 余部 分 一 起 驻 留 在 集成 电路 上 ， 并 且 仅 在 内 部 使 用 。 只 有 
宏 指令 集 可 供 程序 员 使 用 。 有 趣 的 是 ， 一 些 CPU 被 设计 成 使 得 微 码 对 于 购买 CPU 的 客户 来 
说 是 动态 和 可 访问 的 。 也 就 是 说 ，CPU 包含 了 在 芯片 制造 完成 后 可 以 更 换 底 层 硬件 的 设施 。 

为 什么 客户 想 要 更 换 CPU ? 动机 来 自 于 灵活 性 和 性 能 : 允许 客户 对 CPU 指令 进行 一 些 
更 改 ， 延 缓 关于 宏 指 令 集 的 决定 ， 并 允许 CPU 的 所 有 者 根据 特定 用 途 定制 指令 。 例 如 ， 一 
家 销售 视频 游戏 的 公司 可 能 会 添加 宏 指 令 来 操纵 图 形 图 像 ， 而 一 家 制作 网 络 设备 的 公司 可 能 
会 创建 宏 指 令 来 处 理 数据 包头 。 直 接 使 用 底层 硬件 (例如 ， 使 用 微 码 ) 可 以 获得 更 高 的 性 能 。 

一 种 支持 修改 的 技术 变 得 特别 受 欢迎 
在 制造 芯片 之 后 改变 门 电路 。 重 新 配置 FPGA 是 一 项 耗 时 的 过 程 。 因 此 ， 总 体 思路 是 重新 配 
置 FPGA 一 次 ， 然 后 使 用 生成 的 芯片 。FPGA 可 以 用 来 保存 整个 CPU， 或 者 用 作 支 持 一 些 额 
外 指令 的 补充 。 

我 们 可 以 总 结 一 下 : 





诸如 动态 微 码 和 FPGA 之 类 的 技术 允许 在 购买 CPU 此 对 cep a 
“ 展 。 动 机 来 自 于 灵活 性 和 更 高 的 性 能 。 ee 


8.13 en 


问题 出 现 了 : 应 该 为 微 控 制 器 使 用 什么 架构 ? 从 编写 微 码 的 人 的 角度 来 看 ， 问 题 变 成 : 
we Dion 一 个 传统 处 理 器 组 
成 ( 即 一 个 遵循 传统 架构 的 处 理 器 )。 我 们 很 快 会 看 到 其 他 设计 也 是 可 行 的 。 

事实 上 ， 微 控制 器 不 能 与 标准 处 理 器 完全 相同 。 由 于 它 必须 与 CPU 中 的 硬件 单元 进行 
交互 ， 所 以 微 控制 器 需要 一 些 特殊 的 硬件 设施 。 例 如 ， 微 控制 器 必须 能 够 访问 ALU 并 将 结 
果 存 储 在 宏 指 令 集 使 用 的 通用 寄存 器 中 。 同 样 ， 微 控制 器 必须 能 够 解码 操作 数 引 用 和 提取 
值 。 最 后 ， 微 控制 器 必须 与 其 他 硬件 配合 使 用 ， 包 括 内 存 。 

尽管 对 特殊 功能 有 所 要 求 ， 但 微 控制 器 的 设计 与 传统 处 理 器 采用 的 通用 方法 相同 。 也 就 
是 说 ， 微 控制 器 的 指令 集 包 含 常规 指令 ， 如 加 载 、 存 储 、 加 法 、 减 法 、 分 支 等 。 例 如 ， 在 
CISC 处 理 器 中 使 用 的 微 控制 器 可 以 由 一 个 小 型 且 快 速 的 RISC 处 理 器 组 成 。 我 们 说 这 样 的 
微 控制 器 具有 垂直 架构 ， 并 使 用 术语 “垂直 微 码 ”来 表征 在 微 控制 器 上 运行 的 软件 。 

程序 员 对 垂直 微 码 很 熟悉 ， 因 为 他 们 对 编程 接口 很 熟悉 。 最 重要 的 是 ,垂直 微 码 的 语义 
正 是 程序 员 所 期 望 的 : 一 次 执行 一 条 微 指令 。 下 一 节 讨 论 垂 直 微 码 的 蔡 代 方案 。 


8.14 水 平 微 码 
从 硬件 角度 来 看 ， 垂 直 微 码 有 点 不 吸引 人 。 其 中 一 个 主要 缺点 来 自 性 能 要 求 。 大 多 数 
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宏 指 令 需 要 多 个 微 指 令 ， 这 意味 着 以 每 秒 K 条 的 速率 执行 宏 指 令 需 要 微 控 制 器 以 每 秒 NxK 
条 的 速率 执行 微 指 令 ， 其 中 入 是 每 条 宏 指 令 包 含 的 微 指 令 的 平均 数 。 因 此 ， 与 微 控 制 器 相 
关 的 硬件 必须 以 非常 高 的 速度 运行 (例如 ， 用 于 保存 微 码 的 存储 器 必须 能 够 以 高 速率 传送 微 
指令 )。 

垂直 微 码 的 第 二 个 缺点 在 于 垂直 技术 无 法 利用 底层 硬件 的 并 行 性 。 计 算 机 工程 师 已 经 发 
明了 一 种 称 为 水 平 微 码 的 替代 方案 ， 它 克服 了 垂直 微 码 的 一 些 限制 。 水 平 微 码 具 有 与 硬件 配 
合 良 好 的 优点 ， 但 不 能 为 程序 员 提供 熟悉 的 接口 。 也 就 是 说 : 


”水 平 微 码 多 许 硬件 运行 得 更 快 ， 但 编程 更 ; 


要 理解 水 平 微 码 ， 请 回顾 第 6 章 中 对 数据 通路 的 描述 : CPU 由 多 个 功能 单元 组 成 ， 利 
用 数据 通路 连接 它们 。 必 须 控制 这 些 单元 的 运行 ， 并 且 每 个 单元 都 是 独立 控制 的 。 此 外 ， 将 
数据 从 一 个 功能 单元 移动 到 另 一 个 功能 单元 需要 明确 控制 这 两 个 单元 : 必须 指示 一 个 单元 跨 
数据 通路 发 送 数据 ， 而 另 一 个 单元 则 接收 数据 。 

我 们 用 一 个 例子 来 前 明 这 个 概念 。 为 了 让 这 个 例子 容易 理解 ， 我 们 将 做 一 些 简化 的 假 
设 , 并 将 讨论 限制 在 六 个 功能 单元 中 。 图 8.5 显示 了 六 个 功能 单元 如 何 互 连 。 





寄存 器 访问 









数据 传输 机 制 


图 8.5 CPU 内 部 结构 的 示意 图 ， 实 线 箭头 表示 数据 可 以 移动 的 硬件 通路 


图 8.5 中 显示 的 主要 项 是 一 个 算术 逻辑 单元 ( ALU),， 它 执行 加 法 、 减 法 和 移 位 等 操作 。 
其 余 功能 单元 提供 将 ALU 与 系统 其 余部 分 连接 的 机 制 。 例 如 ， 标 记 为 操作 数 1 和 操作 数 2 
的 硬件 单元 表示 操作 数 存 储 单元 ( 即 ， 内 部 硬件 寄存 器 )。ALU 希望 在 执行 操作 之 前 将 操作 
数 放置 在 存储 单元 中 ， 并 将 操作 结果 置 于 标记 为 结果 1 和 结果 2 的 两 个 硬件 单元 中 ?。 最 后 ， 
寄存 器 访问 单元 为 通用 寄存 器 提供 硬件 接口 。 

在 图 8.5 中 ， 箭 头 表 示 数 据 从 一 个 功能 单元 移动 到 另 一 个 功能 单元 时 可 以 通过 的 路 径 ， 
每 个 箭头 是 并 行 处 理 多 个 位 (例如 ，32 位 ) 的 数据 通路 。 大 多 数 稍 头 连 接 到 数据 传输 机 制 ， 
作为 功能 单元 之 间 的 通道 ( 稍 后 章节 将 此 处 描述 的 数据 传输 机 制 称 为 总 线 )。 


8.15 水 平 微 码 的 例子 


每 个 功能 单元 由 一 组 传送 命令 的 线路 ( 即 二 进 制 值 被 硬件 解释 为 命令 ) 控制 。 尽 管 
图 8.5 没有 显示 命令 线 ， 但 我 们 可 以 想象 ， 连 接 到 功能 单元 的 命令 线 的 数量 取决 于 单元 的 类 


日 回想 一 下 , 算术 运算 (如 乘法 ) 可 以 产生 比 操作 数 大 两 倍 的 结果 。 
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型 。 例 如 ， 标 记 为 结果 1 的 单元 只 需要 一 条 指令 线 ， 因 为 该 单元 可 以 由 单个 二 进 制 值 控 制 : 
值 0 将 导致 单元 停止 与 其 他 单元 交互 ， 值 1 将 导致 单元 将 当前 结果 单元 的 内 容 发 送 到 数据 传 
输 机 制 。 图 8.6 总 结 了 可 以 传递 给 示例 中 每 个 功能 单元 的 二 进 制 控制 值 ， 并 给 出 了 每 个 功能 
单元 的 含义 。 


Sa 


无 操作 
从 数据 传输 机 制 中 加 载 值 


无 操作 
0 无 操作 
1 将 数据 发 送 到 数据 传输 机 制 
结果 2 Ee 
1 将 数据 发 送 到 数据 传输 机 制 


无 操作 
将 寄存 器 xxxx 移 至 数据 传输 
将 数据 移 至 传输 寄存 器 xxxx 
无 操作 





图 8.6 可 能 的 命令 值 和 每 个 示例 功能 单元 的 含义 (对 应 图 8.5 ), 命令 在 并 行 线 上 传输 


如 图 8.6 所 示 ， 寄 存 器 访问 单元 是 一 种 特殊 情况 ， 因 为 每 个 命令 都 有 两 个 部 分 : 前 两 位 
指定 一 个 操作 ， 后 四 位 指定 要 在 操作 中 使 用 的 寄存 器 。 因 此 ， 命 令 010011 意味 着 寄存 器 3 
中 的 值 应 该 移 至 数据 传输 机 制 。 

现在 我 们 了 解 了 硬件 的 组 织 方式 ， 可 以 看 到 水 平 微 码 的 工作 原理 。 想 象 一 下 ， 每 条 微 码 


二 


元 。 图 8.7 说 明了 在 示例 中 微 码 指令 的 位 如 何 对 应 于 命令 。 
ALU 操作 数 1 操作 数 2 ”结果 1 ” 结果 2 寄存 器 接口 


J ， 








图 8.7 水平 微 码 指令 中 13 个 位 的 示意 图 ， 对 应 于 六 个 功能 单元 的 命令 
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8.16 水 平 微 码 程序 示例 

水 平 微 码 如 何 用 于 执行 一 系列 操作 ? 本 质 上 ， 程 序 员 可 以 随时 选择 哪些 功能 单元 应 该 处 
于 活动 状态 ， 并 将 信息 编码 为 微 码 的 各 个 位 。 例 如 ， 假 设 程序 员 需 要 编写 水 平 微 码 ， 实 现 将 
通用 寄存 器 4 中 的 值 与 通用 寄存 器 13 中 的 值 相 加 ， 并 将 结果 放 和 人 通用 寄存 器 “。 

图 8.8 列 出 了 必须 执行 的 操作 。 


* 将 寄存 器 4 中 的 值 移 至 操作 数 1 的 硬件 单元 。 
* 将 值 从 寄存 器 13 移 到 操作 数 2 的 硬件 单元 。 


。 安 排 ALU 进行 加 法 计算 。 
。 从 结果 2 的 硬件 单元 (结果 的 低位 ) 将 值 移 至 寄存 器 4。 





图 8.8 功能 单元 必须 执行 的 序列 步骤 的 例子 。 实 现 将 通用 寄存 器 4 和 13 中 的 值 相 加 ， 并 将 结 
果 放 和 通用 寄存 器 4 中 


在 我 们 的 示例 系统 中 ， 每 个 步骤 都 可 以 表示 为 单个 微 指令 。 该 指令 中 有 一 些 位 设置 为 
指定 在 执行 指令 时 哪些 功能 单元 进行 操作 。 例 如 ， 图 8.9 显示 了 与 这 四 个 步 又 相对 应 的 微 码 
程序 。 





图 8.9 一 个 水 平 微 码 程序 的 例子 ， 由 四 条 指令 组 成 ， 每 条 指令 有 13 位 。 每 条 指令 对 应 于 图 
8.8 中 列 出 的 一 个 步骤 


在 图 8.9 中 ， 每 行 对 应 于 一 条 指令 ， 该 指令 被 划分 成 各 自 对 应 于 功能 单元 的 字段 。 字 段 
包含 执行 指令 时 要 发 送 给 功能 单元 的 命令 。 因 此 ， 命 令 决 定 在 每 一 步 操作 哪 一 个 功能 单元 。 

仔细 考虑 图 中 的 代码 。 第 一 条 指令 指定 只 有 两 个 硬件 单元 将 运行 : 操作 数 1 的 单元 和 寄 
存 器 接口 单元 。 与 其 他 四 个 单元 对 应 的 字段 包含 0， 这 意味 着 这 些 单元 在 第 一 条 指令 执行 时 
不 会 运行 。 第 一 条 指令 也 使 用 数据 传输 机 制 一 一 数据 通过 传输 机 制 从 寄存 器 接口 单元 发 送 到 
操作 数 1 单元 。 也 就 是 说 ， 指 令 中 的 字段 使 寄存 器 接口 通过 传输 机 制 发 送 一 个 值 ， 并 使 操 
作 数 1 单元 接收 该 值 。 


8.17 需要 多 个 周期 的 操作 
时 序 是 水 平 微 码 最 重要 的 方面 之 一 。 某 些 硬件 单元 比 其 他 硬件 单元 运行 时 间 更 长 。 例 


日 为 了 简化 这 个 例子 ,我们 假设 数据 传输 机 制 总 是 运行 并 且 不 需要 任何 控制 。 
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如 ， 乘 法 可 能 需要 比 加 法 更 长 的 时 间 。 也 就 是 说 ， 当 一 个 功能 单元 被 给 定 一 个 命令 时 ， 结 果 
不 会 立即 出 现 。 相 反 ， 程 序 在 访问 功能 单元 的 输出 之 前 必须 延迟 。 

编写 水 平 微 码 的 程序 员 必 须 确 保 每 个 硬件 单元 都 有 正确 的 时 间 完 成 任务 。 图 8.9 中 的 代 
码 假设 每 个 步骤 都 可 以 在 一 个 微 指 令 周 期 内 完成 。 但 是 ， 对 于 某 些 硬件 单元 来 说 ， 微 循环 可 
能 太 短 而 无 法 完成 任务 。 例 如 ,一 个 ALU 可 能 需要 两 个 微 指令 周期 来 完成 一 次 加 法 。 为 了 
适应 更 长 的 计算 ,可 以 在 第 三 条 指令 之 后 插入 额外 的 指令 。 额 外 的 指令 只 是 规定 ALU 应 该 
继续 以 前 的 操作 ， 没 有 其 他 单元 受到 影响 。 图 8.10 说 明了 一 个 额外 的 微 码 指令 ， 可 以 插入 
该 指令 以 创建 必要 的 延迟 。 

ALU 操作 数 1 操作 数 2 结果 1 结果 2 寄存 器 接口 





图 8.10 可 插入 的 指令 的 例子 ， 用 于 添加 延迟 以 等 待 ALU 完成 操作 。 时 序 和 延迟 是 水 平 微 码 
的 关键 方面 


8.18 水 平 微 码 和 并 行 执行 


现在 我 们 已 经 对 硬件 的 操作 以 及 关于 水 平 微 码 的 一 般 概 念 有 了 基本 的 了 解 ， 我 们 可 以 看 
到 一 个 重要 的 特性 一 一 并 行 性 的 使 用 。 并 行 性 是 可 行 的 ， 因 为 底层 硬件 单元 独立 运行 。 程 序 
员 可 以 指定 并 行 操作 ， 因 为 指令 包含 单独 的 字段 ， 每 个 字段 控制 一 个 硬件 单元 。 

举 一 个 例子 ， 考虑 一 个 具有 ALU 和 独立 硬件 单元 来 保存 操作 数 的 架构 。 假 设 ALU 需要 
多 个 指令 周期 才能 完成 一 个 操作 。 由 于 ALU 在 第 一 个 周期 内 访问 操作 数 ， 因 此 用 于 保存 操 
作 数 的 硬件 单元 在 连续 的 周期 内 保持 不 用 。 因 此 ， 程 序 员 可 以 在 ALU 操作 继续 时 插入 一 条 
指令 ， 该 指令 可 以 同时 将 新 值 写 人 操作 数 单元 。 图 8.11 说 明了 这 样 一 条 指令 。 

ALU 操作 数 1 操 作 数 2 结果 1 结果 2 寄存 器 接口 





图 8.11 一 个 示例 指令 ， 它 在 继续 ALU 操作 的 同时 将 寄存 器 7 中 的 值 加 载 到 操作 数 硬件 单元 
中 。 水 平 微 码 使 并 行 性 易于 指定 


重点 是 : 





8.19 前瞻 性 和 高 性 能 执行 


实际 上 ，CPU 中 使 用 的 微 码 比 本 章 中 的 简单 例子 要 复杂 得 多 。 和 希望 实现 高 性 能 是 导致 
复杂 性 的 一 个 最 重要 原因 。 由 于 硅 技术 允许 制造 商 在 单个 芯片 上 集成 数 十 亿 个 晶体 管 ， 因 此 
CPU 可 能 包含 许多 功能 单元 ， 这 些 功能 单元 都 可 以 同时 工作 。 

后 面 的 章节 将 考虑 使 并 行 硬件 对 编程 人 员 可 见 的 体系 结构 。 目 前 ， 我 们 将 考虑 一 个 体系 
结构 的 问题 : 是 否 可 以 使 用 多 个 功能 单元 来 提高 性 能 而 不 改变 宏 指令 集 ? 特别 是 ， 是 否 可 以 
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安排 CPU 的 内 部 组 织 检测 和 利用 并 行 执行 以 产生 更 高 的 性 能 ? 

我 们 已 经 看 到 了 一 个 优化 的 简单 例子 : 图 8.11 显示 了 水 平 微 码 允 许 一 个 ALU 操作 继续 
的 同时 ,将 一 个 数据 值 传送 到 持 有 操作 数 的 硬件 单元 。 但 是 ,我们 的 示例 要 求 程序 员 在 创建 
微 码 时 显 式 地 编写 并 行 行为 。 

为 了 理解 CPU 如 何 自动 利用 并 行 性 ， 设 想 一 个 包含 智能 微 控 制 器 和 多 个 功能 单元 的 系 
统 。 不 用 一 次 处 理 一 条 宏 指令 ,智能 控制 器 可 以 访问 许多 宏 指 令 。 控 制 器 前 瞻 性 地 查看 指 
令 ， 找 到 即将 需要 的 值 ， 并 指示 功能 单元 开始 读 取 或 计算 值 。 例 如 ， 假 设 智能 控制 器 在 3- 
地 址 架构 上 查找 到 以 下 四 条 指令 : 


add R1, R3, R7 
sub R4, R4, R6 
add R9, R5, R2 
shift R8,5 


我 们 说 智能 控制 器 通过 为 功能 单元 分 配 必要 的 工作 来 调度 指令 。 例 如 ， 控 制 器 可 以 将 每 
个 操作 数 分 配给 一 个 功能 单元 ， 该 单元 提取 和 准备 操作 数值 。 一 旦 操作 数值 可 用 于 指令 ， 控 
制 器 就 会 将 指令 分 配给 执行 操作 的 功能 单元 。 上 面 列 出 的 指令 可 以 分 别 分 配给 一 个 ALU。 
最 后 ， 当 操作 完成 时 ， 控 制 器 可 以 为 功能 单元 分 配 一 项 任务 ， 实 现 将 结果 移 到 适当 的 目的 寄 
存 器 。 重 点 是 : 如 果 CPU 包含 足够 的 功能 单元 ， 智 能 控制 器 可 以 安排 所 有 四 条 宏 指 令 同 时 
执行 。 
8.20 并行 和 执行 顺序 

我 们 对 智能 微 控 制 絮 的 描述 忽略 了 一 个 重要 的 细节 : 宏 指令 集 的 语义 。 本 质 上 ， 控 制 器 
必须 确保 并 行 计算 出 的 值 不 会 改变 程序 的 含义 。 例 如 ， 请 考虑 以 下 指令 序列 : 


add R1,R3, R7 


sub R4, R4, R6 
add R9, R1, R2 
shift R8,5 


与 前 面 的 例子 不 同 ， 操 作 数 重 倒 。 特 别 是 ， 第 一 条 指令 将 寄存 器 1 ( R1 ) 指定 为 目的 ， 
第 三 条 指令 将 寄存 器 1 指定 为 操作 数 。 宏 指令 集 语义 决定 了 指令 的 顺序 处 理 ， 这 意味 着 第 一 
条 指令 将 在 第 三 条 指令 引用 该 值 之 前 在 寄存 器 1 中 放置 一 个 值 。 为 了 保持 顺序 语义 ， 智 能 控 
制 器 必须 理解 和 适应 这 种 重 倒 。 实 质 上 ， 控制 右 必 须 在 两 个 目标 之 间 进 行 平衡 : 最 大 化 并 行 
执行 的 数量 ， 同 时 保留 原始 ( 即 顺序 ) 的 语义 。 


8.21 乱 序 指令 执行 


控制 器 如 何 调度 并 行 活动 处 理 这 种 场景 ， 即 一 条 指令 中 的 一 个 操作 数 依 赖 于 前 一 条 指令 
的 结果 ?控制 器 使 用 称 为 记分 牌 的 机 制 来 跟踪 每 个 正在 执行 的 指令 的 状态 。 具 体 而 言 ， 记 分 
牌 保存 指令 之 间 的 依赖 关系 信息 以 及 原始 宏 指令 序列 执行 的 信息 。 因 此 ， 控 制 器 可 以 使 用 记 
分 牌 来 决定 何 时 取出 操作 数 、 何 时 继续 执行 以 及 何 时 完成 指令 。 简 而 言 之 ， 记 分 牌 方法 允许 
控制 器 乱 序 执行 指令 ， 然 后 重新 排序 结果 以 反映 代码 指定 的 顺序 。 






8.22 条件 分 支 和 分 支 预测 
条 件 分 支 引起 并 行 执行 的 另 一 个 问题 。 例 如 ， 请 考虑 以 下 计算 : 


Y <¢ f(xX) 
ft > EA 
Q 
} else { 
R 
} 
当 翻 译 成 机 器 指令 时 ， 计 算 包 含 一 个 条 件 分 支 ， 该 条 件 分 支 将 执行 指向 @ 或 的 代码 。 
条 件 取决 于 在 第 一 步 中 计算 出 的 Y 值 。 现 在 考虑 在 使 用 并 行 执行 指令 的 CPU 上 运行 代码 。 
理论 上 , 一 旦 达到 条 件 分 支 ，CPU 必须 等 待 比较 的 结果 一 一 直到 知道 将 选择 哪 一 个 ，CPU 
才 开始 为 R 或 0 调度 代码 。 
实际 上 ， 有 两 种 处 理 条 件 分 支 的 方法 。 第 一 种 方法 称 为 分 支 预测 ， 它 基于 测量 ， 发 现在 
大 多 数 代码 中 ， 分 支 发 生 约 占 60%。 因 此 ， 构 建 沿 分 支 路 径 调 度 指令 的 硬件 ， 比 沿 非 分 支 
路 径 调度 指令 的 硬件 更 优 。 当 然 ， 假 设 分 支 发 生 可 能 会 导致 错误 一 一 如 果 CPU 最 终 确定 不 





应 该 采用 分 支 ， 则 必须 丢弃 分 支 路 径 的 结果 ,并 且 必 须 遵 循 男 一 条 路 径 。 第 二 种 方法 简单 
地 同时 遵循 两 条 路 径 。 也 就 是 说 ，CPU 调度 条 件 分 支 的 两 条 路 径 的 指令 。 与 分 支 预 测 一 样 ， 
CPU 必须 最 终 决 定 哪个 结果 是 有 效 的 。 也 就 是 说 ，CPU 继续 执行 指令 ,但 在 内 部 保存 结果 。 
一 旦 知道 了 条 件 的 值 ，CPU 将 丢弃 无 效 路 径 的 结果 ， 然 后 继续 将 正确 的 结果 移 到 适当 的 目 
标 中 。 当 然 ， 下 次 条 件 分 支 可 以 出 现在 8 或 R 中 ; 记分 牌 机 制 处 理 所 有 细节 。 

重点 是 : 





而 不 是 简洁 。 我 们 还 可 以 观察 到 ， 如 果 一 个 CPU 被 设计 为 等 待 一 个 条 件 分 支 值 已 知 ， 那 么 
硬件 将 仅仅 处 于 空闲 状态 。 因 此 ， 高 速 CPU (例如 Intel 和 AMD 生产 的 CPU ) 采用 并 行 功 
能 单元 和 复杂 的 记分 牌 机制 。 


8.23 ”对 程序 员 的 影响 

理解 CPU 的 构造 将 有 助 于 程序 员 编 写 更 快 的 代码 吗 ? 在 某 些 情况 下 ， 是 的 。 假 设 CPU 
被 设计 为 使 用 分 支 预测 ， 并 且 CPU 假设 分 支 发 生 。 程 序 员 可 以 通过 排列 代码 来 优化 性 能 ， 
比如 最 常见 的 情况 下 采用 分 支 发 生 。 例 如 ， 如 果 程 序 员 知 道 Y 比 2 小 更 常见 ， 而 不 是 Y 大 
于 z， 则 程序 员 可 以 重 写 代码 来 测试 Y < 2。 


8.24 ”小结 


现代 CPU 是 一 个 复杂 的 处 理 器 ， 它 使 用 多 种 执行 模式 来 处 理 一 些 复杂 性 。 执 行 模式 决 
定 操作 参数 ， 例 如 允许 的 操作 和 当前 特权 级 别 。 大 多 数 CPU 至 少 提供 两 级 特权 和 保护 : 一 
个 用 于 操作 系统 ， 另 一 个 用 于 应 用 程序 。 

为 了 减少 内 部 复杂 性 ，CPU 通常 内 置 两 个 抽象 层 : 一 个 微 控制 器 用 数字 电路 实现 ， 一 
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个 宏 指令 集 通过 添加 微 码 来 创建 。 

有 两 大 类 微 码 。 使 用 垂直 微 码 的 微 控制 器 类 似 于 传统 的 RISC 处 理 器 。 通 常 ， 垂 直 微 
码 由 一 组 程序 组 成 ， 每 个 程序 对 应 一 条 宏 指 令 ; CPU 在 取 指 - 执行 周期 中 运行 相应 的 微 码 。 
水 平 微 码 允许 程序 员 调 度 功 能 单元 以 在 每 个 周期 上 运行 ， 这 些微 码 组 成 指令 ， 其 中 指令 的 
每 个 位 字段 对 应 于 功能 单元 。 第 三 种 选择 使 用 现场 可 编程 门 阵列 (FPGA) 技术 来 创建 底层 
系统 。 

高 级 CPU 通过 在 多 个 功能 单元 之 间 安 排 一 组 指令 来 扩展 并 行 执行 。CPU 使 用 记分 牌 机 
制 来 处 理 一 条 指令 的 结果 被 后 续 指 令 使 用 的 情况 。 这 个 想法 可 以 扩展 到 条 件 分 支 ， 允 许 对 每 
个 路 径 的 进展 进行 并 行 评估 ， 然 后 ,一 旦 条 件 已 知 ， 则 丢弃 未 采用 路 径 上 的 值 。 


习题 

8.1 如 果 一 个 四 核 CPU 芯片 包含 20 亿 个 晶体 管 ， 单 个 核 大 约 需要 多 少 个 晶体 管 ? 

8.2 列 出 现代 CPU 复杂 的 七 个 原因 。 

8.3 书 中 说 ， 一 些 CPU 芯片 包含 向 后 兼容 模式 。 这 种 模式 对 用 户 是 否 有 利 ? 

8.4 假设 除了 其 他 硬件 之 外 ， 智 能 手机 中 使 用 的 CPU 还 包含 用 于 三 个 以 前 版 本 芯片 的 附加 硬件 ( 即 三 
种 向 后 兼容 模式 )。 从 用 户 的 角度 来 看 ， 缺 点 是 什么 ? 

8.5 云 数据 中 心中 使 用 的 虚拟 化 软件 系统 通常 包括 运行 和 控制 多 个 操作 系统 的 虚拟 机 管理 程序 ， 以 及 
在 各 自 操 作 系统 上 运行 的 应 用 程序 。 这 些 系统 使 用 的 保护 级 别 与 传统 的 保护 级 别 有 什 么 不 同 ? 

8.6 一些 制造 商 提供 的 芯片 包含 一 个 带 有 基本 指令 集 的 处 理 器 和 一 个 附加 的 FPGA。 所 有 者 可 以 通过 
附加 说 明 配 置 FPGA。 这 种 芯片 提供 的 传统 软件 无 法 提供 的 功能 是 什么 ? 

8.7 阅读 关于 FPGA 的 信息 ， 了 解 它 们 如 何 “ 编 程 ” 。 用 什么 语言 编程 FPGA ? 

8.8 创建 一 个 微 码 算法 ， 对 仅 提供 16 位 算术 运算 的 微 控制 器 执行 32 位 乘法 ， 并 使 用 短 变量 以 C 语言 
实现 算法 。 

8.9 ”为 你 提供 两 份 工作 ， 薪 水 相同 ， 一 个 编程 垂直 微 码 而 另 一 个 编程 水 平 微 码 。 你 选择 哪 一 个 ?为 
什么 ? 

8.10 ”查找 使 用 水 平 微 码 的 商业 处 理 器 的 示例 ， 并 记录 类 似 于 图 8.7 中 的 指令 位 的 含义 。 

8.11 CPU 芯片 中 记分 牌 机 制 的 动机 是 什么 ， 它 提供 了 什么 功能 ? 

8.12 ”如 果 拉 斯 维 加 斯 赌场 计算 出 了 程序 执行 的 概率 ， 他 们 会 为 分 支 发 生 给 出 多 大 的 赔 率 ? 解释 你 的 
答案 。 
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汇编 语言 和 编程 范式 





9.1 引言 


之 前 的 章节 描述 了 处 理 器 指令 集 和 操作 数 寻 址 的 相关 内 容 。 本 章 将 要 讨论 几 种 允许 程序 
员 指 定 指令 和 操作 数 寻 址 细节 的 编程 语言 。 本 章 并 不 是 针对 用 于 特定 处 理 器 的 某 种 语言 的 教 
程 ; 相反 ， 它 提供 了 对 低级 语言 中 常见 特性 的 通用 评估 。 本 章 考 察 一 些 编程 范式 ， 并 解释 相 
比 使 用 常规 程序 设计 语言 ， 用 低级 语言 编程 有 何不 同 之 处 。 最 后 ， 本 章 描述 了 将 低级 语言 
译 成 二 进 制 指令 的 软件 。 

低级 编程 和 低级 编程 语言 并 不 严格 算 作 计算 机 体系 结构 的 一 部 分 。 然 而 ， 我 们 在 这 里 讨 
论 它 们 ， 是 因为 这 些 语言 和 底层 硬件 之 间 的 关联 如 此 紧密 ， 以 至 于 我 们 不 能 轻易 地 将 它们 分 
离 。 随 后 的 章节 将 把 关注 点 重新 放 回 硬件 部 分 ， 检 视 内 存 和 IO 设备 的 相关 特性 。 


9.2 ”高 级 程序 设计 语言 的 特征 
程序 语言 可 以 分 成 两 大 类 : 
。 高 级 语言 。 
。 低级 语言 。 
常规 程序 设计 语言 (例如 Java 和 C) 表现 出 了 如 下 特性 ， 因 而 被 归 类 为 高 级 程序 设计 


PE 


语言 : 
e 一 对 多 翻译 。 
。 硬件 独立 性 。 
e 面向 应 用 软件 。 
e 通用 性 。 
e 强大 的 抽象 能 力 。 
一 对 多 翻译 。 高 级 语言 中 ， 每 条 语句 对 应 着 多 条 机 器 指令 。 即 ， 当 编译 器 将 高 级 语言 翻 
译 成 等 效 的 机 器 指令 时 ， 一 条 语句 通常 会 被 翻译 成 多 条 机 器 指令 。 

硬件 独立 性 。 高 级 语言 允许 程序 员 在 不 知道 底层 硬件 细节 的 前 提 下 编写 程序 。 例 如 ， 某 
种 高 级 语言 允许 程序 员 指 定 浮 点 操作 ， 如 加 法 或 减法 ， 但 程序 员 无 须 了 解 是 算术 逻辑 单元 直 
接 实现 了 浮 点 计算 ， 还 是 使 用 了 单独 的 浮 点 协 处 理 器 。 

面向 应 用 软件 。 高 级 语言 (如 C 和 Java) 被 设计 为 允许 程序 员 创 建 应 用 程序 。 因 此 ， 
高 级 语言 通常 包含 了 输入 /输出 (IO) 设备 ， 以 及 允许 程序 员 定 义 任意 复杂 数据 对 象 的 
机 制 。 

通用 性 。 高 级 语言 (如 C 和 Java) 并 不 局 限于 某 个 特定 的 任务 或 特定 的 问题 领域 。 相 
反 ， 它们 包含 了 一 些 有 用 的 特征 ， 人 允许 程序 员 为 任意 任务 设计 程序 。 

强大 的 抽象 能 力 。 高 级 语言 提供 抽象 能 力 ( 例 如 过 程 )， 人 允许 程序 员 用 简洁 的 方式 表现 
复杂 的 任务 。 


ll 
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9.3 低级 程序 设计 语言 的 特征 

低级 语言 被 认为 是 高 级 语言 之 外 的 另 一 种 选择 ， 它 们 具有 如 下 特性 : 

。 一 对 一 翻译 。 

e 硬件 依赖 性 。 

e 面向 系统 编程 。 

e 专用 性 。 

e 较 少 的 抽象 。 

一 对 一 翻译 。 通 常情 况 下 ， 低 级 程序 设计 语言 中 每 条 语句 对 应 于 单独 的 一 条 底层 处 理 器 
指令 。 因 此 ， 对 应 于 机 器 码 的 翻译 是 一 对 一 的 。 

硬件 依赖 性 。 由 于 每 条 语句 对 应 于 一 条 机 器 指令 ， 为 一 种 处 理 器 设计 的 低级 语言 不 能 应 
用 于 另 一 种 处 理 器 。 

面向 系统 编程 。 不 像 高 级 语言 ， 低 级 语言 是 为 系统 编程 优化 的 一 一 它们 具有 人 允许 程序 员 
设计 操作 系统 或 其 他 直接 控制 硬件 的 软件 的 能 力 。 

专用 性 。 因 为 低级 语言 专注 于 底层 硬件 ， 所 以 它们 只 在 需要 强力 控制 或 极致 效率 的 情形 
下 使 用 。 例 如 ， 与 协 处 理 器 通信 通常 需要 使 用 低级 语言 。 

较 少 的 抽象 。 与 高 级 语言 不 同 ， 低 级 语言 并 不 提供 复杂 的 数据 结构 (例如 ， 字 符 串 和 对 
象 ) 或 控制 语句 (例如 ，if-then-else 或 while)。 相 反 ， 低 级 语言 强迫 程序 员 从 低级 硬 
件 装置 ?中 构造 抽象 。 


9.4 汇编 语言 

汇编 语言 (assembly language) 是 使 用 最 为 广泛 的 低级 程序 设计 语言 ， 汇 编 器 是 将 汇编 语 
言 翻 译 成 硬件 能 够 理解 的 二 进 制 映像 文件 的 软件 。 

汇编 语言 这 一 表述 不 同 于 形 如 Java 语言 或 C 语言 的 表述 ， 理 解 这 点 是 很 重要 的 ， 因 为 
汇编 并 不 指 代 单一 语言 。 相 反 ， 一 种 特定 的 汇编 语言 使 用 来 自 单一 处 理 器 的 指令 集 和 操作 
数 。 因 此 ， 存 在 着 多 种 汇编 语言 ， 每 种 都 对 应 一 类 人 处理 器 。 程 序 员 可 能 会 讨论 MIPS 汇编 语 
言 ， 也 可 能 是 Intel x86 汇编 语言 。 总 结 起 来 就 是 : 


包含 了 特定 处 理 器 特性 《如 指令 









此 看 2 ee . 

汇编 语言 这 一 特性 对 程序 员 造 成 的 影响 是 显然 的 ， 当 编程 工作 从 一 种 处 理 器 迁移 到 另 一 
种 处 理 器 时 ， 汇 编 语言 程序 员 必须 学 习 新 的 语言 。 不 利 的 一 面 是 ， 指 令 集 、 操 作 数 类 型 、 寄 
存 器 在 不 同 的 汇编 语言 中 通常 是 不 同 的 ， 有利 的 一 面 是 ， 大 多 数 汇编 语言 倾向 于 遵从 相同 的 
基本 模式 。 因 此 ， 一 旦 程序 员 学 会 了 一 种 汇编 语言 就 能 够 迅速 学 会 其 他 汇编 语言 。 更 加 重 
要 的 是 ， 如 果 程 序 员 理解 了 基本 的 汇编 语言 范式 迁移 到 新 的 体系 结构 通常 意味 着 学 习 新 的 
细节 ， 而 不 是 学 习 新 的 编程 风格 。 要 点 是 : 


日 计算 机 科学 家 Alan Perlis 曾经 打趣 道 ， 如 果 编 写 程序 时 需要 关注 无 关 紧 要 的 细节 ， 那 么 这 种 编程 语言 就 是 低 
级 语言 。 他 的 观点 是 ， 由 于 大 多 数 程序 不 需要 直接 控制 硬件 ， 使 用 低级 语言 编程 会 为 程序 员 带 来 额外 负担 ， 
却 不 能 带 来 任何 实际 的 好 处 。 
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为 了 帮助 程序 员 理 解 汇编 语言 的 概念 ， 下 一 节 重 点 关注 适用 于 大 多 数 汇编 语 
性 和 编程 范式 。 除 了 具体 的 语言 细节 ， 我 们 还 会 讨论 其 他 概念 ， 比 如 宏 。 


9.5 汇编 语言 的 语法 和 操作 码 


9.5.1 语句 格式 


因为 汇编 语言 是 低级 的 ， 所 以 一 条 汇编 语句 对 应 着 一 条 机 器 指令 。 为 了 使 汇编 语句 和 机 
器 指令 的 对 应 关系 更 为 明确 ， 大 多 数 汇编 器 要 求 程 序 中 的 每 行 包 含 一 条 汇编 语句 。 汇 编 语 名 
的 一 般 格 式 是 : 


label: opcode operand,, operand,, ... 


标签 (label) 可 以 为 汇编 语句 指定 可 选 的 标签 (用 于 分 支 )， 操 作 码 (opcode) 指定 
了 某 一 条 可 用 的 指令 ， 每 个 操作 数 (operand) 为 该 指令 指定 了 所 需 的 操作 数 ， 空 格 用 于 将 
操作 码 与 其 他 部 分 区 分 开 来 。 


9.5.2 ”操作 码 名 


对 于 特定 处 理 器 的 汇编 语言 ， 为 该 处 理 器 中 的 每 种 指令 定义 了 相应 的 符号 名 字 。 尽 管 符 
号 名 是 为 了 帮助 程序 员 记 忆 相 应 指令 ， 大 多 数 汇编 语言 却 使 用 了 极 短 的 缩写 (而 不 是 较 长 的 
名 字 )。 因 此 ， 如 果 一 个 处 理 器 有 一 条 用 于 加 法 的 指令 ， 其 汇编 语言 可 能 会 使 用 add 作为 操 
作 码 名 ; 然而 ， 如 果 该 处 理 器 有 一 条 指令 ， 用 于 跳 转 到 一 个 新 的 位 置 ， 则 这 条 指令 的 操作 码 
名 通常 由 单个 字母 b 或 者 2 个 字母 br 构成 。 类 似 地 ， 如 果 某 个 处 理 器 具有 一 条 用 于 跳 转 到 
子 例 程 的 指令 ， 其 操作 码 名 通常 为 jsr。 

不 幸 的 是 ， 并 没有 一 个 全 球 通 用 的 操作 码 名 称 命名 准则 ， 即 便 对 于 基本 操作 也 是 这 样 。 
例如 ， 大 多 数 体系 结构 都 包含 将 一 个 寄存 器 中 的 内 容 复制 到 另 一 个 寄存 器 中 的 指令 。 为 了 表 
示 这 样 的 操作 ， 有 些 汇编 语言 使 用 操作 码 名 mov ( move 的 缩写 )， 其 他 一 些 汇编 语言 则 可 能 
使 用 操作 码 名 1d (load 的 缩写 ) 。 


9.5.3 注释 规范 


较 短 的 操作 码 名 倾向 于 使 汇编 语言 易于 撰写 而 难于 阅读 。 更 进一步 ， 由 于 汇编 语言 是 低 
级 的 ， 它 常常 需要 许多 指令 去 实现 并 不 复杂 的 任务 。 因 此 ， 为 了 确保 汇编 语言 程序 的 可 读 
性 ， 程 序 员 添 加 了 两 种 类 型 的 注释 : 用 于 解释 每 个 主要 代码 块 目的 的 块 注释 ， 以 及 用 于 解释 
单行 语句 目的 的 详细 注释 。 

为 了 方便 程序 员 添 加 注释 ,汇编 语言 通常 允许 注释 延续 到 一 行 的 末尾 。 也 就 是 说 ， 汇 
编 语言 仅仅 定义 了 一 个 (或 一 串 ) 用 于 开始 注释 的 字符 。 有 的 商业 汇编 语言 定义 磅 字符 (#) 
作为 注释 的 开始 ; 有 的 使 用 分 号 表示 注释 的 开始 ; 还 有 的 则 采用 了 C++ 的 注释 风格 ,使 用 
双 和 斜 线 作 为 注释 的 开始 。 块 注释 可 以 用 每 行 行 首 添加 注释 字符 的 方式 实现 ， 详 细 的 注释 则 
可 以 加 入 程序 的 各 行 。 程 序 员 常 常 添加 额外 的 字符 环绕 块 注释 。 例 如 ， 如 果 磅 字符 是 注释 
开始 字符 ， 那 么 如 下 的 块 注释 示例 解释 了 某 个 程序 段 的 作用 ， 即 在 一 个 列表 中 寻找 指定 大 


有 
言 的 一 般 特 
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小 的 内 存 块 。 





搜索 空闲 内 存 块 的 链表 ， 以 查找 大 小 为 下 字 节 或 更 大 的 块 。 指 向 列 


还 会 破坏 寄存 器 5 的 内 容 ， 该 寄存 器 用 于 遍历 列表 。 


大 

Q# 

## 搜索 

# 0 中 ， 且 N 必须 位 于 寄存 器 4 中 。 该 代码 
# 

## 

六 


洒洒 六 亲 亲 淋 亲 





大 多 数 程序 员 在 汇编 程序 每 行 的 行 末 添 加 注释 来 表明 该 指令 是 如 何 实现 算法 的 。 例 如 ， 
用 于 搜索 内 存 块 的 程序 代码 可 以 以 如 下 语句 开始 : 


1d r5,r3  # 将 列表 的 地 址 加 载 到 工 5 中 
loop_1: cmp r5,r0  # 测试 看 看 是 否 在 列表 末尾 
bz notfnd  # 如 果 到 达 列 表 的 末尾 ， 转 到 notfnd 


尽管 上 述 例子 的 细节 看 上 去 不 易 理 解 ， 但 本 节 的 要 点 是 相对 明确 的 : 一 段 代码 前 的 块 注 
释 用 于 解释 这 段 代 码 的 目的 ， 而 每 行 代码 后 的 注释 解释 了 这 条 指令 是 如 何 有 助 于 得 到 最 终结 
果 的 。 


9.6 ”操作 数 顺 序 

当 程 序 员 从 一 种 汇编 语言 迁移 到 男 一 种 汇编 语言 时 ， 汇 编 语言 之 间 有 一 种 令 人 不 快 的 差 
异常 常会 引起 微妙 的 问题 ， 这 种 差异 就 是 操作 数 顺 序 。 特 定 的 汇编 语言 通常 会 使 用 不 变 的 操 
作 数 顺序 。 例 如 ， 考 虑 一 条 用 于 将 一 个 寄存 器 的 内 容 复制 到 另 一 个 寄存 器 的 指令 。 在 前 面 的 
代码 示例 中 ， 第 一 个 操作 数 代表 目的 寄存 器 ( 即 ， 将 被 放 人 值 的 寄存 器 )， 第 二 个 操作 数 代 
表 源 寄存 器 ( 即 ， 数 据 从 这 个 寄存 器 中 获取 )。 在 这 样 的 解释 下 ， 语 句 : 


1d r5,r3 大 将 列表 的 地 址 加 载 到 r5 中 


将 寄存 器 3 (r3 ) 中 的 内 容 复 制 到 了 寄存 器 5 (r5 )。 为 了 帮助 程序 员 记 忆 由 右 至 左 的 翻 
译 顺序 ， 作 为 辅助 ， 他 们 会 被 告知 可 以 将 其 想象 成 赋值 语句 ， 表 达 式 在 右 ， 而 赋值 目标 
在 左 。 

作为 示例 代码 的 一 种 替换 形式 ,一些 汇编 语言 指定 了 相反 的 操作 数 顺序 一 一 源 寄 存 器 在 
左 而 目的 寄存 器 在 右 。 在 这 样 的 汇编 语言 中 ， 上 述 代 码 将 被 改写 为 操作 数 顺 序 相反 的 形式 : 


1d r3,r5 # 将 列表 的 地 址 加 载 到 工 5 中 


为 了 帮助 程序 员 记忆 由 左 至 右 的 翻译 顺序 ， 他 们 会 被 告知 可 以 将 其 想象 成 一 台 读 取 指 令 
的 计算 机 。 因 为 文本 阅读 是 由 左 至 右 的 ， 我 们 可 以 想象 计算 机 首先 读 取 操作 码 ， 取 出 第 一 个 
操作 数 ， 然 后 将 值 放 入 第 二 个 操作 数 。 当 然 ， 底 层 硬 件 并 不 会 按照 由 左 至 右 或 由 右 至 左 的 顺 
序 处 理 指 令 一 一 操作 数 顺 序 仅仅 是 汇编 语言 的 语法 。 

由 于 一 些 其 他 因素 ， 操 作 数 顺序 问题 变 得 更 加 复杂 。 首 先 ， 与 上 面 的 例子 不 同 ， 许 多 汇 
编 语 言 指令 并 没有 两 个 操作 数 。 例 如 ， 一 条 执行 按 位 补 码 的 指令 只 需要 一 个 操作 数 。 此 外 ， 
即使 一 条 指令 拥有 两 个 操作 数 ， 源 和 目的 的 概念 也 可 能 并 不 适用 (如 ， 比 较 )。 因 此 , 一 个 
不 熟悉 特定 汇编 语言 的 程序 员 也 许 需 要 查阅 手册 来 了 解 某 个 操作 码 的 操作 数 顺序 。 

当然 ， 程 序 员 写 出 来 的 代码 和 最 终生 成 的 指令 二 进 制 值 之 间 会 有 显著 的 不 同 ， 这 是 因为 
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汇编 语言 仅 使 用 操作 码 名 称 ， 这 对 于 程序 员 是 较为 方便 的 。 汇 编 器 可 以 在 翻译 的 过 程 中 对 操 
作 数 进行 重 排 。 例 如 ， 作 者 曾经 在 一 台 有 两 种 汇编 语言 的 计算 机 上 编程 ， 其 中 一 种 汇编 语 
言 由 计算 机 的 供应 商 提供 ， 另 一 种 由 贝尔 实验 室 的 研究 人 员 提 供 。 尽 管 两 种 语言 可 用 来 为 同 
一 种 底层 硬件 的 计算 机 生成 代码 ， 但 其 中 一 种 语言 对 操作 数 采 用 由 左 至 右 的 翻译 顺序 ， 而 另 
一 种 则 使 用 了 由 右 至 左 的 翻译 顺序 。 


9.7 寄存 器 名 称 


由 于 一 条 典型 的 指令 包含 对 至 少 一 个 寄存 器 的 引用 ， 大 多 数 汇编 语言 都 采用 专门 的 方法 
表示 寄存 器 。 例 如 ， 在 许多 汇编 语言 中 ， 以 字母 r 开头 并 在 其 后 跟随 一 至 两 位 数字 的 名 字 会 
被 保留 ， 用 于 指 代 寄 存 器 。 因 此 ， 对 r10 的 引用 指 代 寄 存 器 10。 

然而 ， 业 界 并 没有 一 个 用 于 指 代 寄 存 器 的 通用 标准 。 在 某 种 汇编 语言 中 ， 所 有 的 寄存 器 
引用 都 以 美元 符号 ($) 开头 ， 在 其 后 跟随 数字 ; 因此 ，$10 指 代 寄 存 器 10。 其 他 的 汇编 器 
则 更 为 灵活 : 允许 程序 员 指 定 寄存 器 的 名 字 。 也 就 是 说 ， 程 序 员 可 以 插入 一 系列 声明 代码 ， 
为 某 个 寄存 器 定义 具体 的 名 字 。 因 此 ， 你 可 能 会 发 现 像 这 样 的 声明 : 


Q# 

奉 定 义 程序 中 使 用 的 寄存 器 名 称 

Q# 

rl register 1 姑 定义 名 称 zl 为 寄存 器 I 
r2 register 2 兴 r2,r3,r4 类 似 


r3 register 3 
r4 register 4 


允许 程序 员 自 定义 寄存 器 名 称 的 主要 好 处 来 源 于 增强 的 可 读 性 : 程序 员 可 以 选择 具有 意 
义 的 名 字 。 例 如 ， 假 定 有 一 个 用 于 管理 链表 的 程序 。 程 序 员 可 以 赋予 寄存 器 具有 意义 的 名 
字 ， 而 不 是 使 用 数字 或 者 类 似 r6 的 名 字 : 


# 
帮 为 链表 程序 定义 寄存 器 名 称 
# 


listhd register 6 ## 保存 列表 的 起 始 地 址 
listptr register 7 ## 在 列表 中 移动 


当然 ， 人 允许 程序 员 选 择 寄存 器 的 名 字 也 可 能 引发 不 可 预测 的 后 果 ， 使 得 代码 难以 理解 。 
例如 ， 考 虑 阅读 如 下 程序 ， 程 序 员 使 用 了 声明 : 


r3 register 8 ## 将 名 称 r3 定义 为 寄存 器 81 
要 点 可 以 归纳 如 下 : 





9.8 ”操作 数 类 型 


如 同 第 7 章 的 解释 ， 处理 器 常常 提供 多 种 类 型 的 操作 数 。 为 每 种 处 理 器 设计 的 汇编 语言 
必须 包含 硬件 提供 的 所 有 操作 数 类 型 。 举 例 而 言 ， 假 设 有 一 个 处 理 器 允许 将 每 个 操作 数 指定 


日 x86 平 台 上 的 MASM 汇编 语言 和 AT&T 汇编 语言 。 一 一 译 者 注 
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为 一 个 寄存 器 、 一 个 立即 数 ( 即 一 个 常数 )、 一 个 内 存 地 址 ， 或 是 一 个 通过 将 指令 中 的 偏 移 
量 与 某 个 寄存 器 中 的 内 容 相 加 后 得 到 的 内 存 地 址 。 为 该 种 处 理 器 设计 的 汇编 语言 需要 为 每 种 
操作 数 类 型 提供 相应 的 语法 形式 。 

我 们 说 过 汇编 语言 常常 使 用 特殊 的 字符 或 名 字 来 区 分 寄存 器 与 其 他 值 。 例 如 ， 在 许多 汇 
编 语言 中 ，10 指 代 常 量 10，r10 则 指 代 寄 存 器 10。 然 而 ， 另 外 一 些 汇编 语言 需要 将 特殊 字 
符 置 于 常量 前 (而 不 是 寄存 器 前 ， 例 如 ，#10 指 代 常 量 10 )。 

所 有 汇编 语言 都 必须 为 每 种 操作 数 类 型 提供 语法 形式 。 例 如 ， 考 虑 将 值 从 源 复 制 到 目的 
地 。 如 果 处 理 器 既 允 许 指令 将 源 指定 为 寄存 器 (直接 访问 )， 也 允许 指定 为 某 个 内 存 位 置 ( 间 
接 访 问 )， 那 么 汇编 语言 必须 为 程序 员 提 供 区 分 这 两 种 访问 的 方法 。 一 种 汇编 语言 使 用 括号 
来 区 分 这 两 种 访问 : 


mov r2,r1 大 将 寄存 器 1 的 内 容 复 制 到 寄存 器 2 
mov r2,(r1) 妊 将 寄存 器 1 的 内 容 作为 指针 ， 指 向 一 个 内 存 ， 然 后 
奉 将 该 位 置 处 的 值 拷贝 到 寄存 器 2 





9.9 汇编 语言 的 编程 范式 和 语言 风格 

编程 语言 为 程序 员 提供 了 组 织 数据 与 代码 的 机 制 ， 因 而 会 影响 编程 过 程 和 最 终 代码 。 汇 
编 语 言 在 这 一 点 上 尤其 显著 ， 因 为 它 既 不 提供 高 层次 结构 体 ， 也 不 遵从 某 种 特定 的 风格 。 相 
反 ,汇编 语言 给 予 程序 员 完 全 的 自由 ， 人 允许 程序 员 以 任意 顺序 的 指令 进行 编程 ， 在 任意 内 存 
位 置 存储 数据 。 

有 经 验 的 程序 员 明 白 一致 性 和 清晰 性 通常 比 聪明 的 技巧 或 优化 更 为 重要 。 因 此 ， 经 验 丰 
富 的 程序 员 会 发 展 出 一 套 语 言 风格 : 他 们 持续 使 用 的 编程 模式 。 下 一 节 将 使 用 基本 的 控制 结 
构 展示 汇编 语言 的 语言 风格 。 


9.10 用 汇编 语言 实现 if 语句 

我 们 使 用 术语 条 件 执行 指 代 : 视 特 定 条 件 ， 既 有 可 能 执行 ， 也 有 可 能 不 执行 的 代码 。 由 
于 条 件 执行 是 编程 的 基本 要 素 之 一 ， 高 级 语言 通常 包含 了 一 条 或 多 条 人 允许 程序 员 表 达 条 件 执 
行 的 语句 。 最 基本 的 条 件 执行 是 if£ 语句 。 

在 汇编 语言 中 ， 程 序 员 必须 编码 一 系列 的 语句 来 实现 条 件 执行 。 图 9.1 展示 了 一 个 典型 
的 高 级 语言 中 条 件 执行 采用 的 形式 ， 以 及 在 一 个 典型 汇编 语言 中 的 等 价 形式 。 


if (条 件 ) { 编写 条 件 测试 代码 
执行 语句 并 设置 条 件 码 
} 如 果 条 件 为 假 ， 则 分 去 跳 转 到 Labe1 处 


下 一 条 语句 ; 执行 代码 
下 一 条 语句 的 代码 





a) b) 
图 9.1 a) 条 件 执行 在 某 种 高 级 语言 中 的 形式 ; b) 等 价 的 汇编 语言 代码 
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如 图 9.1 所 示 ， 一些 处 理 器 使 用 条 件 码 作为 条 件 执行 的 基本 机 制 。 每 当 处 理 器 执行 了 一 
个 算术 或 比较 运算 ，ALU 都 会 设 定 条 件 码 。 条 件 分 支 指令 可 以 用 来 测试 条 件 码 ， 如 果 条 件 
码 与 指令 条 件 相 符 则 会 执行 分 支 。 注 意 在 模拟 if 语句 的 例子 中 ,分 支 指令 必须 测试 条 件 的 
对 立 面 ( 即 ， 当 条 件 不 满足 的 时 候 才 执行 分 支 )。 例 如 ， 考 虑 语句 : 

if (a==b){x} 

如 果 我 们 令 a 和 b 分 别 存储 于 寄存 器 5 和 寄存 器 6， 等 效 的 汇编 语言 为 : 


cmp r5, r6 ## 比较 a 和 bb 的 值 并 设置 cc 
bne labl 奉 如 果 前 面 的 比较 不 相等 ， 则 分 支 发 生 
执行 代码 x 

labl: 下 一 条 语句 的 代码 


9.11 用 汇编 语言 实现 if-then-else 语句 


高 级 语言 中 的 if-then-else 语句 指定 了 当 条 件 为 真 或 条 件 为 假 两 种 情况 下 要 执行 的 
代码 。 图 9.2 展示 了 与 if-then-else 语句 等 效 的 汇编 语言 。 


if (条 件 ) 《 编写 条 件 测试 代码 
条 件 为 真 时 执行 的 语句 部 分 并 设置 条 件 码 
} else { 如 果 条 件 为 假 ， 则 分 支 跳 转 到 1abell 处 


条 件 为 假 时 执行 的 语句 部 分 执行 条 件 为 真 时 的 代码 
分 支 跳 转 到 labe12 
下 一 条 语句 ; label1: 条 件 为 假 时 的 代码 
labe12: 下 一 条 语句 的 代码 


a) b) 
图 9.2 a) 某 种 高 级 语言 中 的 if-then-else 语句 ; b) 等 效 的 汇编 语言 代码 





9.12 用 汇编 语言 实现 for 循环 语句 
术语 “确定 性 迭代 ” 指 代 一 种 编程 语言 结构 ， 该 结构 允许 一 段 代 码 执行 固定 的 次 数 。 典 
型 的 高 级 语言 使 用 for 语句 实现 确定 性 迭代 。 图 9.3 展示 了 与 for 语句 等 效 的 汇编 语言 。 


for (i=0; i<10; it+) { 将 寄存 器 xr4 设 置 为 0 

执行 语句 labell1: 将 寄存 器 xr4 的 内 容 与 10 相 比较 
} 如 果 大 于 等 于 ， 则 跳 转 到 labe12 
下 一 条 语句 执行 代码 


将 寄存 器 r4 的 值 加 1 
跳 转 到 labell 
labe12: 执行 下 一 条 语句 





a) b) 
图 9.3 a) 某 种 高 级 语言 中 的 for 语句 ; b) 等 效 的 汇编 语言 代码 ， 使 用 寄存 器 4 作为 循环 变量 


确定 性 迭代 指出 了 高 级 语言 与 汇编 语言 之 间 一 个 有 趣 的 不 同 点 : 代码 的 位 置 。 在 汇编 语 
言 中 ， 实 现 控制 结构 的 代码 会 被 分 散 到 单独 的 位 置 。 特 别 地 ， 尽 管 程序 员 认 为 初始 化 、 计 算 
条 件 测 试 、 自 增 操作 都 是 在 for 语句 的 首部 确定 的 ， 然 而 与 之 等 效 的 汇编 代码 却 将 自 增 操 
作 放 在 了 主体 代码 的 后 面 。 
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9.13 用 汇编 语言 实现 while 循环 语句 

在 编程 语言 术语 中 ， 不 定 和 迭代 指 执 行 零 次 或 多 次 循环 。 通 常 ， 高 级 语言 使 用 关键 字 
while 表明 不 定 迭 代 。 图 9.4 展示 了 与 while 语句 等 价 的 汇编 语言 。 
label1: 计算 条 件 的 代码 


如 果 条 件 不 满足 ， 则 跳 转 到 Labe12 
执行 代码 


while (condition) { 
执行 语句 
} 


下 一 条 语句 ; 跳 转 到 1abell 


labe12: 执行 下 一 条 语句 





a) b) 
图 9.4 a) 某 种 高 级 语言 中 的 while 语句 ; b) 等 效 的 汇编 语言 代码 


9.14 用 汇编 语言 实现 子 程序 调用 

我 们 使 用 术语 “过 程 ”或 “ 子 程序 ” 指 代 一 段 可 以 被 调用 、 执 行 计 算 并 将 控制 权 归 还 调 
用 者 的 代码 。 术 语 “过 程 调用 ”或 “ 子 程序 调用 ” 指 代 了 这 样 的 调用 过 程 。 关 键 之 处 在 于 ， 
当 子 程序 被 调用 时 ， 处 理 器 记录 调用 发 生 的 位 置 ， 一 旦 调用 子 程序 结束 ， 就 在 那个 位 置 立刻 
恢复 执行 。 这 样 ， 一 段子 程序 可 以 被 程序 的 不 同位 置 调用 ， 因 为 控制 权 总 会 交还 到 调用 发 生 
的 位 置 。 

许多 处 理 器 提供 两 种 基本 的 汇编 指令 ， 用 于 过 程 调用 。 跳 转 到 子 程序 ( jsr) 指令 保存 
当前 代码 位 置 ， 并 跳 转 到 特定 位 置 的 子 程序 ; 子 程序 返回 (ret) 指令 使 得 处 理 器 返回 之 前 
保存 的 代码 位 置 。 图 9.5 展示 了 如 何 使 用 这 两 种 汇编 指令 声明 过 程 以 及 两 次 调用 。 


X() { X: X 子 过 程 的 执行 语句 
函数 x 的 执行 语句 ret 


Jsr x 
其 他 语句 的 代码 
jsr' x 


下 一 条 语句 的 代码 





a) b) 
图 9.5 a) 过 程 x 的 声明 ， 以 及 两 次 调用 ; b) 等 效 的 汇编 语言 代码 


9.15 ”用 汇编 语言 实现 带 参数 的 子 程序 调用 

在 高 级 语言 中 ， 过 程 调用 是 参数 化 的 。 过 程 体 中 包含 对 形式 参数 的 引用 ， 调 用 者 则 将 一 
系列 值 传人 ， 这 些 值 也 被 为 实 参 。 当 过 程 引用 一 个 形 参 时 ， 其 值 会 从 对 应 的 实 参 获取 。 问 题 
出 现 了 : 汇编 语言 中 ， 如 何 将 实 参 传 递 给 过 程 中 的 形 参 呢 ? 

不 幸 的 是 ， 参 数 传递 的 细节 随处 理 器 不 同 而 千差万别 。 例 如 ， 以 下 三 类 机 制 都 被 应 用 在 
至 少 一 种 处 理 器 中 9: 


昌 ”记录 返回 地 址 ( 即 ，ret 指令 应 当 跳 转 到 的 位 置 ) 的 存储 位 置 常常 与 参数 的 存储 位 置 有 关 。 
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e 处 理 器 使 用 内 存 中 的 栈 保存 参数 。 

。 处 理 器 使 用 寄存 器 窗口 传递 参数 。 

。 处 理 器 使 用 专用 的 参数 寄存 器 。 

举例 而 言 ， 考 虑 一 个 在 过 程 调用 时 将 寄存 器 r1 一 上 8 用 作 参 数 传递 的 处 理 器 。 图 9.6 
展示 了 在 这 种 体系 结构 下 的 过 程 调 用 汇编 代码 。 
: ”过 程 x 的 语句 代码 ， 

假设 寄存 器 1 包含 是 参数 a， 

寄存 器 2 包含 参数 b 


ret 


x(a,b) { 
过 程 x 的 执行 语句 
} 


将 -4 加 载 到 寄存 器 1 
将 17 加 载 到 寄存 器 2 


X(-4, 17 ); 
其 他 语句 ; 
区 
下 一 条 语句 


jj 下 芭 

其 他 语句 代码 

将 71 加 载 到 寄存 器 1 
将 27 加 载 到 寄存 器 2 
jer x 


下 一 条 语句 





a b) 


图 9.6 a) 参数 化 过 程 x 的 声明 ， 以 及 在 高 级 语言 中 的 两 次 调用 ; b) 一 个 处 理 器 在 寄存 器 中 
传递 参数 的 等 效 汇编 语言 代码 


9.16 ”对 程序 员 的 影响 


各 式 参 数 传递 机 制 的 影响 应 该 是 清楚 的 : 传递 和 引用 参数 所 需 的 汇编 语言 代码 在 不 同 的 
处 理 器 上 有 着 显著 差异 。 更 为 重要 的 是 ， 程 序 员 可 以 自由 地 发 明 新 的 参数 传递 机 制 以 提高 性 
能 。 例 如 ， 内 存 引用 比 寄存 器 引用 更 慢 。 因 此 ， 即 便 某 种 硬件 被 设计 为 使 用 内 存 中 的 栈 ， 程 
序 员 也 可 以 选择 在 通用 寄存 器 中 而 不 是 在 内 存 中 传递 参数 来 提升 性 能 。 

要 点 是 : 





9.17 ”函数 调用 的 汇编 语言 实现 代码 

术语 “函数 ” 指 代 返 回 以 单一 值 为 结果 的 过 程 。 例 如 ， 可 以 建立 一 个 算术 函数 ， 计 算 
sin (x)， 指 定 参数 为 角度 x， 函 数 返 回 这 个 角度 的 正弦 值 。 与 过 程 类 似 ， 函 数 可 以 有 参数 ， 
可 以 在 程序 的 任意 位 置 调用 。 因 此 对 于 给 定 的 处 理 器 ， 函 数 调用 与 过 程 调用 使 用 相同 的 基本 
机 制 。 

除去 函数 与 过 程 之 间 的 相似 之 处 ， 函 数 调用 还 需要 确定 一 个 额外 的 细节 : 确切 地 指定 函 
数 结果 如 何 返回 的 协定 。 如 同 参数 传递 一 样 ， 有 许多 可 选 的 实现 存在 。 一 些 处 理 器 提供 了 单 
独 的 专用 硬件 寄存 器 存放 返回 值 。 其 他 处 理 器 则 假设 程序 会 使 用 通用 寄存 器 中 的 一 个 。 无 论 
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怎样 。 在 执行 ret 指令 前 ， 函 数 必须 将 返回 值 放 人 处 理 器 指定 的 位 置 。 当 函数 返回 后 ， 调 
用 程序 会 取出 并 使 用 返回 值 。 


9.18 汇编 语言 与 高 级 语言 间 的 交互 

汇编 语言 代码 和 高 级 语言 代码 之 间 ， 两 种 方向 的 交互 都 是 可 行 的 。 换 句 话说， 一 个 用 高 
级 语言 编写 的 程序 可 以 调用 由 汇编 语言 编写 的 过 程 或 函数 ， 一 个 用 汇编 语言 编写 的 程序 也 可 
以 调用 由 高 级 语言 编写 的 过 程 或 函数 。 当 然 ， 由 于 程序 员 只 能 控制 汇编 语言 代码 而 不 能 控制 
高 级 语言 代码 ， 汇 编程 序 必须 遵从 高 级 语言 使 用 的 调用 规则 。 也 就 是 说 ， 汇 编 代 码 必须 使 用 
与 高 级 语言 相同 的 存储 返回 地 址 、 调 用 过 程 、 传 递 参数 以 及 返回 函数 值 的 机 制 。 

为 什么 程序 员 要 将 用 汇编 语言 编写 的 代码 与 用 高 级 语言 编写 的 代码 混在 一 起 ? 在 一 些 情 
形 下 ， 由 于 高 级 语言 不 允许 与 底层 硬件 的 直接 交互 ， 汇 编 代码 是 必须 的 。 例 如 ， 一 台 拥 有 
特殊 图 形 硬件 的 计算 机 可 能 需要 汇编 代码 发 挥 图 形 功 能 。 然 而 ， 在 大 多 数 情 况 下， 汇编 语言 
仅 用 来 优化 性 能 旦 程序 员 认 定 某 段 代码 为 性 能 普 有 诺 ， 他 就 会 用 汇编 语言 编写 该 段 代码 





的 优化 版 本 。 通 常 ， 将 优化 的 汇编 语言 代码 放 和 人 一 个 过 程 或 函数 中 ， 程 序 的 其 他 部 分 仍 由 高 
级 语言 编写 。 因 此 ， 由 高 级 语言 编写 的 代码 和 由 汇编 语言 编写 的 代码 之 间 最 常见 的 交互 情形 
是 : 由 高 级 语言 编写 的 程序 调用 由 汇编 语言 编写 的 过 程 或 函数 。 

要 点 是 : 





9.19 变量 和 存储 的 汇编 代码 


除了 生成 指令 的 语句 ， 汇 编 语言 允许 程序 员 定义 数据 项 。 初 始 化 的 和 未 初始 化 的 变量 都 

可 以 声明 。 例 如 ， 一 些 汇 编 语言 使 用 伪 指 令 .word 声明 一 个 占用 16 位 的 存储 空间 的 项 ， 伪 

指令 .long 声明 32 位 的 存储 空间 的 项 。 图 9.7 展示 了 高 级 语言 中 的 声明 和 等 效 的 汇编 代码 。 
: .long 


: .long 
: .long 


Short w, q; : .word 
: .word 
statement(s) statement(s) 





a) b) 
图 9.7 a) 高 级 语言 中 的 变量 声明 ; b) 等 效 的 汇编 语言 的 变量 声明 
关键 字 .word 和 .1long 是 汇编 语言 的 伪 指 令 。 尽 管 它们 出 现在 与 操作 码 相 同 的 位 置 
上 ,， 但 伪 指令 并 不 相当 于 指令 。 相 反 ， 伪 指令 控制 编译 转换 。 图 9.7 中 的 伪 指 令 指 定 保留 一 
定 的 存储 空间 以 容纳 变量 。 在 大 多 数 汇编 语言 中 ， 保 留存 储 空间 的 伪 指令 也 允许 程序 员 指 定 
初 值 。 因 此 ， 伪 指令 : 
X; .word 949 


保留 了 16 字 节 的 内 存 位 置 ， 为 该 位 置 赋值 整数 值 949， 并 将 x 定义 为 程序 员 可 以 用 来 引用 
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该 位 置 的 标签 ( 即 ， 名 字 )。 


9.20 汇编 语言 代码 样 例 


一 个 例子 将 有 助 于 明确 概念 并 展示 汇编 语言 风格 是 如 何在 实践 中 得 以 应 用 的 。 为 了 帮助 
比较 x86 和 ARM 架构 ， 我 们 将 在 每 个 架构 上 使 用 相同 的 样 例 。 为 了 使 示例 更 清晰 ， 我 们 以 
一 段 C 程序 开 始 ， 随 后 展示 如 何在 汇编 语言 上 实现 相同 的 算法 。 

我 们 将 使 用 平常 的 例子 演示 少量 基础 案例 ， 而 不 会 使 用 较 长 的 复杂 程序 展示 所 有 用 法 。 
特别 地 ， 它 将 展示 不 定 和 迭代 和 条 件 执行 。 这 个 例子 包含 了 一 段 打 印 斐 波 那 契 数 列 初始 项 的 代 
码 。 数 列 的 前 两 项 都 是 1， 每 个 后 续 项 的 值 均 由 其 前 两 项 的 和 计算 得 到 。 因 此 ， 数 列 会 是 1， 

为 了 确保 我 们 的 例子 与 计算 机 体系 结构 的 概念 相关 ， 我 们 会 安排 代码 打印 斐 波 那 契 数 
列 中 所 有 不 超过 用 补 码 表示 的 32 位 有 符号 整数 范围 的 项 。 随 着 数列 生成 ， 代 码 会 统计 大 于 
1000 的 项 的 个 数 ， 并 输出 摘要 。 


9.20.1 C 语言 版 斐 波 那 契 程序 示例 


图 9.8 展示 了 一 个 C 程序 ， 用 于 计算 斐 波 那 契 数列 中 所 有 不 超过 用 补 码 表示 的 32 位 有 
符号 整数 范围 的 项 。 程 序 使 用 printf 函数 打印 每 个 值 。 它 还 统计 了 大 于 1000 的 项 的 个 
数 ， 并 使 用 printf 函数 输出 了 总 项 数 以 及 计算 中 使 用 的 变量 的 最 终 值 的 一 份 摘要 。 


#include <stdlib.h> 
#include <stdio.h> 
#include <ctype.h> 


int a= lr b= 工 ny tp? 
void main(void) { 


n= 0; 
printf(" %10d\n", b); 
printf(" %1l0d\n", a); 
while ( (tmp =a+b)>0)1 

b= ay; 

a = tmp; 

if (a > 1000) { 

n++; 

} 

printf(" %1l0d\n", a); 
} 


Printf("\n 大 于 1000 的 值 的 数量 是 $d\n"，n); 
printf(" 最 终 值 是 : a=0x%08X b=0x%08X tmp=0x%08X\n",a,b,tmp); 
exit(0); 





图 9.8 一 个 C 程序 示例 ， 计 算 并 打印 斐 波 那 契 数 列 中 的 值 ， 数 值 符合 一 个 32 位 有 符号 整数 的 范围 


图 9.9 展示 了 程序 运行 的 结果 。 输 出 的 最 后 一 行 给 出 了 变量 a、b 和 tmp 在 while 
循环 终止 后 的 值 。 变 量 a (十 进 制 值 1 836 311 903 ) 的 十 六 进 制 值 为 6D73E55F。 注 意 变 
量 tmp 的 值 为 B11924E1， 最 高 二 进 制 位 为 1。 如同 第 3 章 说 明 的 那样 ， 当 tmp 解释 为 
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有 符号 整数 时 ， 它 的 值 将 会 是 负 的 ， 这 也 是 循环 终止 的 原因 。 同 时 注意 变量 n， 即 用 于 统 
计 斐 波 那 契 数 个 数 的 变量 ， 其 值 为 30。 这 个 结果 可 以 通过 对 输出 中 大 于 1000 的 行 计 数 来 


验证 。 


121393 
196418 
317811 
514229 
832040 
1346269 
2178309 
3524578 
5702887 
9227465 
14930352 
24157817 
39088169 
63245986 
102334155 
165580141 
267914296 
433494437 
701408733 


1134903170 
1836311903 
大 于 1000 的 值 的 数量 是 30 

最 终 值 是 : a=0x6D73E55F b=0x43A53F82 tmp=0xB11924E1 





图 9.9 运行 图 9.8 中 的 程序 产生 的 输出 


9.20.2 x86 汇编 语言 版 斐 波 那 契 程序 示例 
图 9.10 展示 了 x86 汇编 代码 ， 其 生成 的 输出 与 图 9.8 中 的 程序 相同 。 代 码 使 用 gcc 调 


用 规则 来 调用 printf。 
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# initialized data (a and b) 


# uninitialized data (n and tmp) 


” S$l0d\n" 
"\nThe number of values greater than 1000 is %d\n" 
"Final values are: a=0x%08X b=0x%08X tmp=0x%08X\n" 


main 
$0, n =0 


b, %esi # set up args to print a 
$fmtl, Sedi 

$0, Seax 

printf 


ay %esi # set up args to print b 
$fmtl, %edi 

$0, %eax 

printf 


ar Yeax # eax <- a 

b, Seax # eax <- eax +b 

Seax, tmp # tmp <- eax 

Seax, Seax # test eax 

endwhile # if <= 0 jump to endwhile 


a, Seax # eax <- a 
Seax, b # b <- eax 
tmp, %eax # eax <- tmp 
Seax, a # a <- eax 


$1000, ®%eax # compare 1000 to eax 
endif # if <= jump to endif 
n, Sebx # ebx <- n 

$1, ®Sebx # ebx <- ebx + 1 
Sebx, n # D <- ebx 


ar Sesi # set up args to print a 
$fmtl, %edi 

$0, Seax 

printf 

while 


n, %esi # set up args to print n 
$fmt2, $edi 

$0, Seax 

printf 


tmp, Secx # set up args to print a, b, and tmp 
b, Sedx 

a, %esi 

$fmt3, %edi 

$0, Seax 

printf 


$0, Sedi # exit with argument 0 
exit 





图 9.10 一 个 x86 汇编 语言 程序 ， 遵 循 图 9.8 所 示 的 C 程序 
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9.20.3 ARM 汇编 语言 版 斐 波 那 契 程序 示例 


图 9.11 展示 了 ARM 汇编 代码 ， 其 生成 的 输出 与 图 9.8 中 的 程序 相同 。x86 版 和 ARM 
版 代码 均 未 优化 。 在 两 个 例子 中 。 一 些 指令 都 可 以 通过 将 变量 保留 在 寄存 器 中 而 消除 。 作 为 
示例 ， 少 量 的 优化 工作 已 在 ARM 代码 上 完成 : 初始 化 寄存 器 r4 ~ 一 上 8 ， 用 于 容纳 变量 ab、 
n、tmp 和 格式 字符 串 fmt1 的 地 址 。 由 于 被 调用 的 子 程序 需要 保存 和 恢复 寄存 器 的 值 ， 程 
序 运行 过 程 中 寄存 器 的 值 保持 不 变 。 因 此 ， 当 调用 printf 输出 变量 a 时 ， 程 序 可 以 使 用 
单条 指令 将 格式 字符 串 的 地 址 移 人 第 一 个 参数 寄存 器 (z0 ): 


mov r0,Tr8 

同 理 ， 程 序 可 以 使 用 单条 指令 将 a 的 值 载 入 第 二 个 参数 寄存 器 (r1 ): 
ldr rl, [r4] 

请 练习 其 他 提升 代码 效率 的 方法 。 


.七 eXt 
align 4 
.global main 


r4, #:lowerl6:a @ r4 <- &a 
r4, #:upperl6:a 

r5, #:lower16:b @r5 <- gb 
r5, #:upperl6:b 

r6, #:lowerl6:n 8 r6 <- &n 
r6, #:upperl6:n 

r7, #:lowerl16:tmp e r7 <- &tmp 


8 r8 <- gfmtl 


En=0 


@rl<-b 
8 r0 <- gfmtl 


@ rl <- a 
@ r0 <— gfmtl 


r3, [r4] 8@r3<-a 

rz2 [zzS] ae r2 <- b 

Xl T37 E2 8rl<-a+b 

ris (X73 ae tmp <- rl (i.e., tmp <- a + b) 
8 test tmp 
@ if tmp <= 0 go to endwhile 


8&b<-a 
8 a <- tmp 


ae compare a and 1000 

ae if a>1000 r3 <- n 

@ if a>1000 r3 <- r3+1 
@ if a>1000 n <- r3 

@ r0 <- &fmtl 

ae rl is still a 





图 9.11 一 个 ARM 汇编 语言 程序 ， 遵 循 图 9.8 所 示 的 算法 


r0, #:lower16:fmt2 
r0, #:upper16:fmt2 @ r0 <- &fmt2 
rl, [r6] &rl<-n 
printf 
ae r3 <- tmp 
ae r2 <- b 
8 Fr1 <- 


@ r0 <- &fmt3 


@ exit with argument 0 


@ uninitialized data 


@ initialized data 


" %10d\012\000" 
i "\01l2The number of values greater than 1000 is %d\012\000" 
i "Final values are: a=0x%08X b=0x%08X tmp=0x%08X\012\000" 





图 9.11 ( 续 ) 


9.21 两 次 扫描 的 汇编 器 


我 们 使 用 术语 汇编 器 指 代 一 类 可 以 将 汇编 语言 翻译 成 二 进 制 代码 供 处 理 器 执行 的 程序 。 
概念 上 ， 汇 编 器 与 编译 器 类 似 ， 因 为 它们 都 以 源 程序 为 输入 ， 产 生 等 效 的 二 进 制 代 码 作为 输 
出 。 然 而 ， 汇 编 器 与 编译 器 不 同 ， 因 为 编译 器 负责 的 部 分 远 多 于 汇编 器 。 例 如 ， 编 译 器 可 以 
决定 如 何 分 配 变量 的 内 存 空间 ， 对 各 条 语句 使 用 哪些 指令 ， 以 及 将 哪些 值 保留 在 通用 寄存 器 
中 。 汇 编 器 不 能 做 出 类 似 的 选择 ， 因 为 源 程 序 已 经 指定 了 精确 的 细节 实现 。 汇 编 器 与 编译 器 
的 不 同 点 可 以 总 结 为 : 






概念 上 来 说 ， 汇 编 器 使 用 两 次 扫描 算法 ， 这 意味 着 汇编 器 会 对 源 程序 进行 两 次 扫描 。 为 
了 理解 为 什么 需要 两 次 扫描 ， 观 察 到 许多 分 支 指 令 包 含 了 前 向 引用 ( 即 ， 用 于 引用 的 分 支 标 
签 在 之 后 才 被 定义 )。 当 汇编 器 第 一 次 到 达 分 支 语句 处 时 ， 汇 编 器 无 法 得 知 标签 会 被 指定 为 
哪个 地 址 。 因 此 ， 汇 编 器 进行 一 次 初始 化 扫描 ， 计 算出 每 个 标签 在 最 终 程 序 中 的 地 址 ， 并 
将 这 些 信息 存放 于 名 为 符号 表 的 数据 表 中 。 接 下 来 汇编 器 进行 第 二 次 扫描 ， 用 于 生成 代码 。 
图 9.12 通过 展示 一 个 汇编 语言 代码 片段 及 其 语句 的 相对 位 置 说 明了 这 一 思想 。 

在 第 一 次 扫描 中 ， 汇 编 器 计算 出 指令 的 大 小 ,但 并 不 填 入 实际 细节 。 一 旦 汇编 器 完成 了 
第 一 次 扫描 ， 它 就 记录 了 每 条 语句 的 位 置 。 结 果 是 ， 汇 编 器 得 知 了 程序 中 每 个 标签 的 值 。 随 
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后 ， 如 汇编 器 知道 labe14 开始 于 位 置 0x20 (十 进 制 值 32 )， 因 此 当 第 二 次 扫描 汇编 器 遇 到 
如 下 语句 : 


br label4 





图 9.12 汇编 语言 代码 片段 以 及 分 配给 一 个 设想 处 理 器 的 每 条 语句 的 位 置 。 位 置 由 汇编 器 的 第 
一 次 扫描 确定 


汇编 器 可 以 生成 一 个 以 立即 数 32 为 操作 数 的 分 支 指 令 。 类 似 地 ， 其 他 的 每 个 分 支 指令 都 可 
以 在 第 二 次 扫描 中 生成 相应 的 代码 ， 因 为 每 个 标签 的 位 置 都 是 已 知 的 。 
理解 汇编 器 的 细节 并 不 重要 ， 只 要 知道 如 下 要 点 : 






2 人 PC Rh SE op NT J ES 
现在 既然 我 们 理解 了 汇编 器 是 如 何 工 作 的 ， 我 们 可 以 讨论 使 用 汇编 器 的 一 个 主要 优势 : 
对 分 支 地 址 的 自动 重新 计算 。 为 了 看 出 自动 重 算 如 何 有 用 ， 考 虑 一 个 编写 程序 的 程序 员 。 如 
果 程 序 员 在 程序 中 插入 了 一 条 语句 ， 其 后 继 语句 的 地 址 都 将 发 生 改 变 。 于 是 ， 每 个 引用 了 插 
人 点 之 后 标签 的 分 支 指令 都 必须 改变 。 

没有 了 汇编 器 ， 修 改 分 支 标签 将 会 是 乏味 而 易 出 错 的 。 此 外 ,程序 员 常常 在 调试 过 程 中 
进行 一 系列 的 代码 修改 。 汇 编 器 允许 程序 员 方便 地 修改 程序 一 一 程序 员 只 需要 重新 运行 汇编 
器 ， 就 可 以 生成 所 有 分 支 地 址 都 更 新 过 的 二 进 制 文件 。 


9.22 汇编 语言 的 宏 

由 于 汇编 语言 是 低级 的 ， 即 便 是 普通 的 操作 也 需要 许多 指令 。 更 重要 的 是 ， 汇 编 语言 程 
序 员 时 常会 发 现 不 同 实例 之 间 的 代码 序列 仅 有 微小 的 不 同 ， 而 大 量 代码 都 是 重复 的 。 重 复 代 
码 使 得 编程 变 得 乏味 ， 如 果 程 序 员 使 用 剪 切 - 粘贴 的 方法 ， 还 可 能 会 引入 错误 。 

为 了 帮助 程序 员 避 免 重 复 编程 ， 许 多 汇编 语言 都 包含 了 带 参 宏 的 功能 。 为 了 使 用 宏 功 
能 ， 程 序 员 需 要 在 源 程序 中 添加 两 种 类 型 的 项 : 一 个 或 多 个 宏 定 义 ， 以 及 一 个 或 多 个 宏 展 
开 。 注 意 ，C 程序 员 会 认 出 汇编 语言 宏 ， 因 为 它们 操作 起 来 类 似 C 的 预 处 理 器 宏 。 

本 质 上 ， 宏 指令 功能 为 汇编 器 增加 了 额外 的 扫描 过 程 。 汇 编 器 首先 进行 初始 扫描 ， 展 开 
所 有 宏 。 有 一 点 概念 很 重要 ， 宏 展开 扫描 并 不 解析 汇编 语言 语句 ， 也 不 负责 指令 的 翻译 。 事 
实 上 ， 宏 预 处 理 扫描 将 包含 宏 的 汇编 语言 源 程序 作为 输入 ， 经 过 处 理 后 ， 将 宏 被 展开 的 汇编 
语言 源 程序 作为 输出 。 也 就 是 说 ， 宏 预 处 理 扫描 的 输出 变 为 了 普通 的 两 次 扫描 汇编 器 的 输 
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入 。 许 多 汇编 器 具有 一 个 选项 ， 人 允许 程序 员 获 取 一 份 展开 的 源 代码 拷贝 用 于 调试 ( 即 ， 检 查 
宏 展开 是 否 如 同 程序 员 预 期 的 那样 进行 了 )。 

尽管 汇编 器 宏 的 细节 随 汇编 语言 不 同 而 不 同 ， 它 的 概念 是 明确 的 。 宏 定义 通常 被 关键 字 
(如 macro 和 endmacro) 括 在 一 起 ， 并 包含 一 系列 代码 。 例 如 ， 图 9.13 显示 了 一 个 名 为 
addmenm 的 宏 定义 ， 用 于 将 两 个 内 存 位 置 的 内 容 相 加 并 将 结果 放 入 第 三 个 位 置 。 


addmem(a，b，c) 
rl, a 类 将 第 一 个 参数 加 载 到 寄存 器 1 中 
r2, b 类 将 第 二 个 参数 加 载 到 寄存 器 2 中 


rl, r2 “人 # 将 寄存 器 2 和 寄存 器 1 相 加 ， 并 存 到 寄存 器 1 
r3，C ”人 # 将 结果 存 到 第 三 个 参数 中 
endmacro 


图 9.13 使 用 关键 字 macro 和 endmacro 的 示例 宏 定 义 。 宏 中 的 项 是 指 参数 a、b 和 c 
一 旦 宏 完 成 定义 ， 它 就 可 以 展开 。 程 序 员 调用 宏 ， 并 提供 一 系列 参数 ; 汇编 器 将 宏 调 


用 替换 为 一 份 宏 功 能 体 的 拷贝 ， 并 用 实 参 取代 形 参 。 例 如 ， 图 9.14 展示 了 由 图 9.13 定义 的 
addmem 宏 展开 所 生成 的 汇编 代码 。 





# 
## 注 意 ; 下 面 的 代码 来 自 addmem(xxx, YY,，zqz) 
Q# 


rl, XxxX # 将 第 一 个 参数 加 载 到 寄存 器 1 中 

r2, YY # 将 第 二 个 参数 加 载 到 寄存 器 2 中 

rl, r2 # 将 寄存 器 2 和 寄存 器 1 相 加 ， 并 存 到 寄存 器 1 中 
r3，2zqz # 将 结果 存 到 第 三 个 参数 中 


图 9.14 汇编 代码 的 一 个 示例 ， 由 宏 addmem 展开 形成 


有 重要 的 一 点 需要 理解 : 尽管 图 9.13 中 的 宏 定 义 看 起 来 像 是 过 程 声 明 ， 但 宏 与 过 程 的 
原理 是 不 同 的 。 第 一 ， 声 明 宏 并 不 产生 任何 机 器 指令 。 第 二 ， 宏 被 展开 ， 而 不 是 被 调用 。 也 
就 是 说 ， 完 整 的 宏 结构 体会 被 复制 到 汇编 程序 中 。 第 三 ， 宏 的 实 参 会 被 视 为 字符 串 ， 用 于 车 
代 对 应 的 形 参 。 理 解 实 参 的 字面 值 替 换 是 至 关 重 要 的 ， 因 为 它 可 能 引发 预期 之 外 的 结果 。 例 
如 ， 考 虑 图 9.15 指出 的 ， 一 个 非法 的 汇编 程序 是 如 何 由 于 宏 展 开 而 产生 的 。 





下 面 的 代码 来 自 addmem(1+，%*J ，+) 
rl，1+ 做 将 第 一 个 参数 加 载 到 寄存 器 1 中 


IrI2，%*J 涛 将 第 二 个 参数 加 载 到 寄存 器 2 中 
rl, r2 # 将 寄存 器 2 和 寄存 器 1 相 加 ， 并 存 到 寄存 器 1 中 
r3, + “ 头 将 结果 存 到 第 三 个 参数 中 


图 9.15 ” 宏 扩 展 名 可 导致 非法 程序 的 一 个 例子 。 汇 编 器 在 不 检查 其 有 效 性 的 情况 下 替换 参数 





如 图 9.15 所 示 ， 任 意 字符 串 都 可 用 作 宏 的 实 参 ， 这 也 意味 着 程序 员 可 能 无 意 间 犯 下 错 
误 。 直 到 汇编 器 处 理 展开 的 源 程序 之 前 ， 没 有 触发 任何 警告 。 例 如 ， 例 子 中 第 一 个 实 参 包 含 
字符 串 1+， 而 这 是 一 个 语法 错误 。 当 它 所 在 的 宏 被 展开 ， 汇 编 器 遇见 了 指定 的 字符 串 ， 生 
成 了 : 


load rl, 1+ 


类 似 地 ， 对 第 二 个 参数 %*J 的 替换 ， 会 产生 : 
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load r2, %*J 


这 是 一 条 没有 意义 的 语句 。 然 而 ， 直 到 宏 展开 器 运行 完毕 ， 汇 编 器 试图 汇编 程序 之 前 ， 这 类 
错误 都 不 会 被 检测 到 。 更 加 重要 的 是 ， 由 于 宏 展开 生成 了 源 代 码 ， 错 误 信息 的 行 号 均 指 代 展 
开 后 的 程序 ， 而 不 是 程序 员 提 交 的 原始 代码 。 

要 点 是 : 





9.23 小 结 


汇编 语言 是 低级 语言 ， 与 处 理 器 的 特性 有 关 ， 如 指令 集 、 操 作 数 寻 址 模式 以 及 寄存 器 。 
存在 着 许多 汇编 语言 ， 对 应 于 每 种 处 理 器 都 有 一 种 或 多 种 。 抛 开 不 同 之 处 ， 大 多 数 汇编 语言 
遵循 着 相同 的 基本 结构 。 

汇编 语言 中 的 每 条 语句 对 应 着 一 条 单独 的 底层 硬件 指令 。 汇 编 语 句 由 可 选 的 标签 、 操 作 
码 和 操作 数组 成 。 对 应 于 一 种 处 理 器 的 汇编 语言 为 该 处 理 器 支持 的 每 种 操作 数 类 型 提供 了 相 
应 的 语法 形式 。 

尽管 汇编 语言 之 间 存 在 区 别 ， 大 多 数 汇编 语言 遵从 相同 的 基本 范式 。 因 此 ， 我 们 可 以 通 
过 指定 典型 汇编 语言 的 语句 序列 实现 条 件 执行 、 具 有 备用 路 径 的 条 件 执行 、 确 定性 迭代 以 及 
不 定 迭 代 。 大 多 数 处 理 器 包含 了 用 于 调用 子 程序 或 函数 并 返回 调用 者 的 指令 。 参 数 传递 、 返 
回 地 址 存储 以 及 向 调用 者 返回 值 的 细节 会 有 所 不 同 。 一 些 处 理 器 将 参数 返回 在 内 存 中 ， 其 他 
一 些 则 借助 寄存 器 。 

汇编 器 是 一 种 将 汇编 语言 源 程序 翻译 为 处 理 器 可 以 执行 的 二 进 制 代 码 的 软件 。 概 念 上 
来 讲 ， 汇 编 器 对 源 程 序 进行 两 次 扫描 : 一 次 分 配 地 址 ， 一 次 生成 代码 。 许 多 汇编 器 具有 宏 
功能 ， 可 以 帮助 程序 员 避 免 乏 味 的 代码 重复 ; 宏 展开 器 生成 源 程序 ， 随 后 被 汇编 。 由 于 安 
展开 器 使 用 文本 替换 ， 它 可 能 会 产生 非法 代码 ， 只 能 在 汇编 器 的 两 次 主要 扫描 中 被 检测 并 


Pa 
口 o 


习题 

9.1 陈述 并 解释 低级 语言 的 特征 。 

9.2 程序 员 希 望 在 汇编 语言 程序 中 找到 什么 注释 ? 

9.3 ”如 果 程 序 包含 if-then-else 语句 ， 当 条 件 为 真 时 ， 将 执行 多 少 条 分 支 指令 ? 当 条 件 为 假 时 呢 ? 

9.4 汇编 语言 用 什么 实现 重复 语句 ? 

9.5 说 出 商业 处 理 器 中 使 用 的 三 种 参数 传递 机 制 。 

9.6 ”编写 一 个 汇编 语言 函数 ， 它 接受 两 个 整数 参数 ， 将 它们 相 加 ， 并 返回 结果 。 通 过 从 C 中 调用 它 来 
测试 你 的 函数 。 

9.7 编写 一 个 声明 三 个 整数 变量 的 汇编 语言 程序 ， 将 它们 分 配 赋值 1、2 和 3， 然后 调用 printf 来 
格式 化 打印 这 些 值 。 

9.8 程序 员 有 时 会 错误 地 说 汇编 语言 (assembler language)。 他 们 有 什么 困惑 ， 应 该 使 用 什么 术语 ? 

9.9 在 图 9.12 中 ， 如 果 在 labe14 之 后 插入 一 条 跳 转 到 labe12 的 指令 ， 会 跳 到 哪个 地 址 ? 如 果 在 
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labe1l1 之 前 插入 新 指令 ， 地 址 是 否 会 改变 ? 
观察 图 9.8 中 用 C 编写 的 斐 波 那 契 程 序 示例 。 程 序 是 否 可 以 重新 设计 得 更 快 ? 如 何 做 ? 
通过 选择 将 值 保 存在 寄存 器 中 而 不 是 将 它们 写 和 内存 来 优化 图 9.10 和 图 9.11 中 的 斐 波 那 契 程 
序 。 请 解释 你 的 选择 。 
比较 图 9.10 和 图 9.11 中 的 x86 版 和 ARM 版 的 斐 波 那 契 程 序 。 你 觉得 哪个 版 本 需要 更 多 的 代 
码 ? 为 什么 ? 
使 用 gcc 上 的 -s 选项 为 C 程序 生成 汇编 代码 。 例 如 ， 尝 试图 9.8 中 的 程序 。 解 释 所 有 生成 的 
额外 代码 。 
使 用 汇编 语言 宏 而 不 是 函数 的 主要 缺点 是 什么 ? 
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10.1 引言 


前 面 的 章节 考察 计算 机 系统 中 使 用 的 主要 组 件 之 一 一 一 处 理 器 ， 阐 述 了 处 理 器 体系 结 
构 ， 包 括 指令 集 、 操 作 数 和 复杂 CPU 的 结构 。 

本 章 介绍 计算 机 系统 中 使 用 的 第 二 个 主要 组 件 : 内 存 。 接 下 来 的 章节 将 探讨 内 存 的 基本 
形式 : 物理 内 存 、 虚 拟 内 存 和 缓存 。 后 面 的 章节 将 考察 输入 /输出 (IO)， 并 说 明 LO 设备 
如 何 使 用 内 存 。 


10.2 定义 


当 程序 员 想 到 内 存 时 ， 通 常 关注 传统 计算 机 中 的 主 存储 器 ( 主 存 )。 从 程序 员 的 角度 来 
看 ， 主 存储 器 保存 正在 运行 的 程序 以 及 程序 使 用 的 数据 。 从 更 广泛 的 意义 讲 ， 计 算 机 系统 使 
用 包括 通用 寄存 器 、 主 存储 器 和 辅助 存储 器 〈 例 如 磁盘 或 闪存 ) 的 存储 层次 结构 。 在 本 书 中 ， 
我 们 将 使 用 术语 “内 存 ” 来 具体 指 代 主 存储 器 ， 并 且 通 常 将 术语 “存储 器 ”用 于 更 广泛 的 层 
次 结构 和 程序 员 使 用 的 层次 结构 的 抽象 。 

架构 师 将 内 存 当 作为 数据 值 提供 存储 的 固态 数字 设备 。 接 下 来 将 通过 考察 各 种 可 能 性 来 
阐明 这 个 概念 。 


10.3 内存 的 关键 方面 


当 架 构 师 开始 设计 内 存 系统 时 ， 会 出 现 两 个 关键 选择 : 

e 技术 。 

。 组 织 。 

技术 是 指 用 于 构建 内 存 系统 的 底层 硬件 装置 的 属性 。 我 们 将 了 解 到 许多 技术 是 可 用 的 ， 
并 查看 其 属性 的 示例 。 我 们 还 将 学 习 基本 技术 是 如 何 运作 的 ， 并 了 解 每 种 技术 在 何 时 适用 。 

组 织 是 指 用 基础 技术 形成 工作 系统 的 方式 。 我 们 将 看 到 ， 关 于 如 何 将 一 位 内 存单 元 组 合 
成 多 位 内 存单 元 有 很 多 选择 ， 并 且 将 知道 有 多 种 方式 将 内 存 地 址 映射 到 底层 单元 。 

本 质 上 ， 内 存 技术 是 指 底 层 的 硬件 〈 即 单个 芯片 )， 而 内 存 组 织 则 是 指 这 些 碎 片 如 何 组 
合 起 来 创建 有 意义 的 存储 系统 。 我 们 将 看 到 ， 这 两 方面 都 会 影响 内 存 系统 的 成 本 和 性 能 。 


10.4 内 存 技术 的 特点 


由 于 已 经 发 明了 大 量 的 技术 ， 内 存 技术 不 易 定 义 。 为 了 帮助 阐明 给 定 类 型 内 存 的 广泛 目 
的 和 意图 ， 工 程 师 使 用 以 下 几 个 特征 : 

。 昂 失 或 非 易 失 。 

。 随机 或 顺序 访问 。 

。 读 写 或 只 读 。 
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。 主 或 次 。 


10.4.1 内 存 易 失 性 


如 果 内 存 的 内 容 在 断 电 时 消失 ， 则 内 存 被 分 类 为 易 失 性 存储 器 。 大 多 数 计算 机 使 用 的 主 
存 是 易 失 性 的 一 一 当 计算 机 关闭 时 ， 存 储 在 主 存 中 的 正在 运行 的 应 用 程序 和 数据 将 消失 。 

相反 ， 如 果 存 储 内 容 在 断 电 后 仍 能 存在 ， 则 内 存 被 分 类 为 非 易 失 性 存储 器 。 例 如 ， 数 
码 相 机 和 固态 硬盘 (SSD) 中 使 用 的 闪存 是 非 易 失 性 的 一 一 存储 在 相机 或 磁盘 上 的 数据 ， 在 
电源 关闭 时 保留 。 事 实 上 ， 即 使 将 存储 设备 从 相机 或 计算 机 中 取出 ， 数 据 仍然 存在 。 


10.4.2 内存 访问 范式 


最 常见 的 内 存 形式 是 随机 访问 ， 这 意味 着 内 存 中 的 任何 值 都 可 以 在 固定 的 时 间 内 访问 ， 
而 不 受 其 位 置 或 访问 的 位 置 顺序 的 影响 。 随 机 存 取 存储 器 (RAM) 这 个 术语 非常 普遍 ， 消 
费 者 在 购买 计算 机 时 会 查看 RAM。 随 机 访问 的 替代 方法 是 顺序 访问 ， 其 中 访问 给 定 值 的 时 
间 取 决 于 该 值 在 存储 器 中 的 位 置 和 先前 访问 的 值 的 位 置 (通常 ， 访 问 存储 器 中 的 下 一 个 顺序 
位 置 比 访问 其 他 位 置 速度 快 得 多 )。 例 如 ， 一 种 类 型 的 顺序 访问 存储 器 由 一 个 用 硬件 实现 的 
FIFO (先进 先 出 ) 队列 组 成 。 


10.4.3 值 的 持久 性 


内 存 的 特点 是 可 以 提取 、 更 新 或 者 两 者 兼 有 。 传 统计 算 机 系统 中 使 用 内 存 的 主要 形式 是 
允许 随时 访问 ( 读 取 ) 或 更 新 ( 写 人 ) 内 存 中 的 任意 值 。 其 他 形式 的 内 存 更 持久 。 例 如 ， 某 
些 内 存 被 认为 是 只 读 存 储 器 (ROM)， 因 为 内 存 包含 可 访问 的 数据 值 ， 但 无 法 更 改 。 

可 编程 只 读 存 储 器 (PROM) 是 ROM 的 一 种 形式 ， 被 设计 为 允许 将 数据 值 存储 在 内 存 
中 ， 然 后 可 多 次 访问 。 在 极端 情况 下 ，PROM 只 能 写 人 一 次 一 一 高 电压 用 于 永久 更 改 世 片 。 

中 间 形 式 的 持久 性 也 存在 。 例 如 ， 通 常用 于 智能 手机 和 固态 硬盘 的 闪存 代表 着 永久 性 
ROM 与 几乎 没有 永久 性 的 技术 之 间 的 一 种 折 中 ， 虽 然 在 断 电 时 保留 数据 ， 但 闪存 中 的 项 
不 会 永远 保持 下 去 。 习 题 10.9 要 求 读者 研究 闪存 技术 ， 以 发 现 办 存 设备 闲置 时 数据 的 持续 
时 间 。 


10.4.4” 主 存 和 辅 存 


术语 主 存储 器 ( 主 存 ) 和 辅助 存储 器 〈( 辅 存 ) 是 定性 的 。 最 初 ， 这 些 术 语 用 于 区 分 计算 
机 的 快速 、 易 失 性 的 内 部 主 存储 器 和 由 外 部 机 电 设备 (如 硬盘 ) 提供 的 较 慢 、 非 易 失 性 存储 
器 。 但 是 ， 许 多 计算 机 系统 现在 将 固态 存储 技术 用 于 主 存 和 辅 存 。 特 别 是 ， 固 态 硬盘 (SSD) 
用 于 辅 存 。 


10.5 内存 层 级 的 重要 概念 


主 存储 器 和 辅助 存储 器 的 概念 作为 计算 机 系统 内 存 层 级 的 一 部 分 出 现 。 要 理解 层级 结 
构 ， 必 须 考 虑 性 能 和 成 本 : 具有 最 高 性 能 特征 的 内 存 也 是 最 昂贵 的 。 因 此 ， 架 构 师 必须 选择 
满足 成 本 约束 的 内 存 。 


日 称 为 NonVolatile RAM (NVRAM) 的 新 兴 技术 像 传统 主机 一 样 运行 内 存 ， 但 在 电源 关闭 时 保留 值 。 
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对 内 存 使 用 的 研究 产生 了 一 个 有 趣 的 原理 : 对 于 给 定 的 成 本 ， 在 整个 计算 机 中 使 用 一 种 
类 型 的 内 存 不 能 实现 最 佳 性 能 。 相 反 ， 应 该 将 一 组 技术 安排 在 概念 性 内 存 层 级 结构 中 。 该 层 
级 结构 具有 少量 的 最 高 性 能 内 存 、 较 大 部 分 的 稍 慢 一 些 的 内 存 等 。 例 如 ， 架 构 师 会 选择 少量 
的 通用 寄存 器 、 大 量 的 主 存储 器 和 更 多 的 辅助 存储 器 。 总 结 一 下 : 





第 12 章 进一步 研究 了 内 存 层 级 结构 的 概念 ， 介 绍 层级 结构 背后 的 科学 原理 ， 并 解释 称 
为 缓存 的 内 存 机 制 如 何 使 用 该 原则 在 不 增加 成 本 的 情况 下 实现 更 高 性 能 。 
10.6 ”指令 和 数据 存储 


回想 一 下 最 早 的 一 些 计算 机 系统 使 用 哈佛 体系 结构 ， 为 程序 和 数据 提供 单独 的 存储 器 。 
后 来 ， 大 多 数 架 构 师 采用 冯 “ 诺 依 曼 体 系 结构 ， 其 中 一 个 存储 器 同时 存储 程序 和 数据 。 





统 有 时 使 用 单独 的 存储 器 。 用 于 存放 程序 的 存储 器 称 为 指令 存储 器 ， 用 于 存放 数据 的 存储 器 
称 为 数据 存储 器 。 

单独 的 指令 存储 器 的 动机 之 一 来 自 内 存 层级 的 概念 : 在 许多 系统 上 ， 通 过 提高 指令 存储 
器 的 速度 可 以 提高 整体 性 能 。 要 理解 原因 ， 请 注意 高 速 指令 是 设计 用 来 处 理 通用 寄存 器 中 的 
值 而 不 是 内 存 中 的 值 的 。 因 此 ， 为 了 优化 速度 ， 尽 可 能 将 数据 保存 在 寄存 器 中 。 但 是 ,在 取 
指 一 执行 周期 的 每 次 迭代 中 都 必须 访问 指令 。 因 此 ， 指 令 存储 器 比 数据 存储 器 更 活跃 。 更 重 
要 的 是 ， 尽 管 数据 访问 倾向 于 遵循 一 种 随机 访问 模式 ， 访 问 一 个 变量 之 后 接着 访问 另 一 个 变 
量 ， 但 处 理 器 通常 依次 访问 指令 存储 器 。 也 就 是 说 ， 指 令 一 个 接 一 个 地 放 在 内 存 中 ， 除 非 发 
生 分 支 ， 否 则 处 理 器 将 从 一 个 移动 到 下 一 个 。 这 两 个 存储 器 的 分 离 允 许 设计 者 优化 用 于 顺序 
存 取 的 指令 存储 器 。 

总 结 一 下 : 






ci ee 


10.7 提取 一 保存 范式 

正如 我 们 将 看 到 的 ， 所 有 内 存 技 术 都 使 用 一 个 称 为 提取 一 保存 的 单一 范式 。 就 目前 而 
言 ， 了 解 这 个 范式 有 两 个 基本 操作 是 重要 的 : 从 内 存 中 提取 值 ， 或 将 值 存储 到 内 存 中 。 提 取 
操作 有 时 称 为 读 取 或 加 载 。 如 果 我 们 将 内 存 视 为 位 置 数组 ， 可 以 将 从 内 存 中 读 取 一 个 值 视 为 
一 个 利用 内 存 地 址 的 数组 索引 操作 : 


value ¢- memory[address] 


这 种 类 比 也 适合 存储 操作 ， 有 时 也 称 为 写 入 操作 。 也 就 是 说 ， 可 以 把 将 一 个 值 存储 到 内 
存 中 看 作 将 值 存储 到 一 个 数组 中 : 


memory[address] 二 value 
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下 一 章 将 更 详细 地 解释 这 个 想法 。 稍 后 的 IO 章节 将 解释 如 何 将 提取 - 保存 范式 用 于 输 
入 和 输出 设备 ， 以 及 下 层 存 储 器 访问 如 何 与 IO 相关 。 


10.8 小结 


内 存 的 两 个 关键 方面 是 底层 技术 和 组 织 。 存 在 着 各 种 技术 ， 它 们 可 以 表征 为 易 失 性 或 非 
易 失 性 、 随 机 或 顺序 访问 、 永 久 性 或 非 永久 性 (只 读 或 读 写 ) 以 及 主 存 或 辅 存 。 

为 了 以 给 定 的 成 本 实现 最 高 性 能 ， 架 构 师 将 内 存 组 织 成 概念 层级 结构 。 层 级 结构 包含 少 
量 高 性 能 内 存 和 大 量 低 性 能 内 存 。 

内 存 系统 使 用 提取 - 保存 范式 。 内 存 硬 件 只 支持 两 种 操作 : 一 种 从 内 存 中 提取 值 ， 另 一 
种 将 值 存 储 到 内 存 中 。 


习题 

10.1 定义 存储 层级 并 举例 说 明 。 

10.2 ”架构 师 在 设计 存储 器 系统 时 做 出 的 两 个 关键 选择 是 什么 ? 

10.3 了 解 典型 计算 机 的 RAM 和 SSD 技术 。 每 种 内 存 每 字 节 的 大 约 财 务 成 本 是 多 少 ? 

10.4 扩展 前 一 题 ， 查 找 内 存 的 速度 (访问 时 间 ) 并 比较 性 能 的 财务 成 本 。 

10.5 哪 种 类 型 的 存储 器 更 安全 〈 即 对 于 尝试 更 改 内 容 的 人 而 言 不 易 被 更 改 )， 闪 存 还 是 ROM ? 

10.6 ”如 果 数 据 存储 在 易 失 性 存储 器 中 ， 断 电 时 数据 会 发 生 什么 变化 ? 

10.7 假设 NVRAM 将 取代 DRAM， 内 存 技术 的 哪些 特性 变 得 不 那么 重要 (甚至 消失 ) ? 

10.8 比较 NVRAM 和 传统 RAM 的 性 能 。NVRAM 慢 多 少 ? 

10.9 ”研究 在 典型 的 USB 闪存 驱动 器 中 使 用 的 闪存 技术 ， 这 种 闪存 技术 也 称 为 跳 转 驱动 器 或 拇指 驱动 
器 。 如 果 未 使 用 闪存 驱动 器 ， 数 据 可 持续 多 久 ? 你 对 答案 感到 惊讶 吗 ? 

10.10 ”寄存 器 比 主 存 更 快 ， 这 意味 着 如 果 所 有 数据 都 保存 在 寄存 器 而 不 是 主 存 中 ， 程 序 可 以 运行 得 更 
快 。 为 什么 设计 人 员 创 建 具有 这 人 么 少 寄存 器 的 处 理 器 ? 

10.11 如 果 计 算 机 遵循 哈佛 体系 结构 ， 你 是 否 期 望 找 到 两 个 相同 的 存储 器 ， 一 个 用 于 指令 ， 一 个 用 于 
数据 ? 请 解释 原因 。 

10.12 取 指 -执行 和 提取 一 保存 这 两 个 术语 是 指 同 一 个 概念 吗 ? 请 解释 说 明 。 
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11.1 引言 


上 一 章 引 入 了 内 存 主题 ， 列 出 了 内 存 系统 的 特征 ， 并 解释 了 内 存 层 级 的 概念 。 本 章 解 释 
一 个 基本 的 内 存 系统 如 何 运 作 。 本 章 讨 论 用 于 构建 典型 计算 机 内 存 和 将 内 存 组 织 成 字 节 和 字 
的 底层 技术 。 下 一 章 将 扩展 讨论 ， 考 虑 虚拟 内 存 。 


11.2 计算 机 内 存 的 特点 


工程 师 使 用 术语 随机 存 取 存储 器 ( RAM) 来 表示 在 大 多 数 计算 机 中 用 作 主 存储 器 系统 的 
内 存 的 类 型 。 顾 名 思 义 ，RAM 是 针对 随机 (而 不 是 顺序 ) 访问 进行 优化 的 。 此 外 ，RAM 提 
供 读 写 功能 ， 使 访问 和 更 新 同样 廉价 。 最 后 ， 我 们 将 看 到 大 多 数 RAM 是 易 失 性 的 一 一 在 计 
算 机 断 电 后 ， 值 不 会 持续 存在 。 


11.3 ”静态 和 动态 RAM 技术 


用 于 实现 随机 存 取 存储 器 的 技术 可 以 分 为 两 大 类 。 静 态 RAM (SRAM) 是 程序 员 最 容易 
理解 的 类 型 ， 因 为 它 是 数字 逻辑 的 直接 扩展 。 从 概念 上 讲 ，SRAM 将 每 个 数据 位 存储 在 一 
个 锁 存 器 中 ， 这 是 一 个 由 多 个 晶体 管 组 成 的 微型 数字 电 
路 ， 类 似 于 第 2 章 中 讨论 的 锁 存 器 。 虽然 内 部 实现 超出 写 使 能 
了 本 书 的 范围 ， 但 图 11.1 显示 了 一 位 RAM 的 三 个 外 部 
连接 。 

在 图 11.1 中 ,电路 有 两 个 输入 和 一 个 输出 。 当 写 
使 能 输入 打开 ( 即 逻辑 1 ) 时 ， 电 路 将 输出 值 设置 为 等 
于 输入 (0 或 1); 当 写 使 能 输入 断 开 时 ( 即 逻 辑 0 )， 电 
路 忽略 输入 并 保持 输出 为 上 次 设置 的 值 。 因 此 , 为 了 存 图 11.1 存储 一 个 数据 位 的 微型 更 
储 一 个 值 ， 硬 件 将 该 值 置 于 输入 上 ， 打 开 写 人 使 能 线 ， 态 RAM 电 路 图 ， 该 电路 
然后 再 次 关闭 使 能 线 。 包含 多 个 晶体 管 

虽然 它 高 速 运行 但 SRAM 有 一 个 明显 的 缺点 : 

高 功 耗 (会 产生 热量 )。 微 型 SRAM 电路 包含 可 连续 工作 的 多 个 晶体 管 。 每 个 晶体 管 消耗 少 
量 功率 ， 因 此 产生 少量 热量 。 

被 称 为 动态 RAM (DRAM) 的 存储 器 是 静态 RAM 的 替代 方案 ， 耗 电量 更 低 。 动 态 
RAM 的 内 部 工作 令 人 惊讶 ， 可 能 会 令 人 困惑 。 在 最 底层 ， 为 了 存储 信息 ，DRAM 使 用 了 一 
个 像 电 容 (一 个 存储 电荷 的 设备 ) 一 样 的 电路 。 当 将 一 个 值 写 人 DRAM 时 ,硬件 给 电容 充 
电 或 放电 以 存储 1 或 0， 之 后 ， 当 从 DRAM 读 取 值 时 ， 硬 件 检查 电容 上 的 电荷 并 产生 适当 
的 数字 值 。 

围绕 DRAM 的 概念 性 困难 来 自 电容 的 工作 方式 : 由 于 物理 系统 并 不 完美 ， 电 容 会 逐渐 
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失去 电荷 。 从 本 质 上 讲 ，DRAM 芯片 是 一 个 不 完美 的 存储 设备 一 一 随 着 时 间 的 流逝 ， 电 和 荷 
消散 ，1 会 变 为 0。 更 重要 的 是 ，DRAM 在 很 短 的 时 间 内 就 会 失去 它 的 使 用 权 ( 例 如， 在 某 
些 情况 下 ， 不 到 一 秒 钟 )。 

如 果 数 值 可 以 很 快 变 为 0，DRAM 如 何 能 够 用 作 写 使 能 
计算 机 内 存 ? 答案 在 于 一 个 简单 的 技巧 : 设计 一 种 方 
法 在 电荷 消散 之 前 ， 从 内 存 中 读 取 该 位 ， 然 后 再 次 
写 人 相同 的 值 。 写 入 一 个 值 会 导致 电容 再 次 以 适当 
的 电荷 启动 。 因 此 ， 读 取 然 后 写 人 一 位 会 重 置 电容 
而 不 改变 位 的 值 。 

在 实践 中 ， 使 用 DRAM 的 计算 机 包含 一 个 额外 
的 硬件 电路 ， 称 为 刷新 电路 ， 用 于 执行 读 取 然 后 写 





入 的 任务 。 图 11.2 说 明了 这 个 概念 。 图 11.2 动态 RAM 中 一 个 位 的 示意 
刷新 电路 比 图 11.2 中 所 示 的 更 复杂 。 为 了 保持 图 。 外 部 刷新 电路 必须 定期 读 

较 小 的 刷新 电路 ， 架 构 师 不 会 为 每 一 位 构建 一 个 刷 取 数 据 值 并 将 其 重新 写 回 ， 否 

新 电路 。 相 反 ， 架 构 师 设计 了 一 个 可 以 循环 遍历 整 则 电荷 将 消散 ， 数 据 将 丢失 


个 内 存 的 小 的 刷新 机 制 。 当 它 读 取 到 一 位 时 ， 刷 新 

电路 读 取 该 位 ， 将 值 写 回 ， 然 后 移 到 下 一 位 。 由 于 刷新 电路 必须 与 正常 的 存储 器 操作 配合 ， 
因此 也 会 出 现 复杂 性 。 首 先 ， 刷 新 电路 不 得 干扰 或 延迟 正常 的 内 存 操作 。 其 次 ， 刷 新 电路 
必须 确保 正常 的 写 人 操作 不 会 在 刷新 电路 读 取 该 位 然后 写 人 相同 值 的 这 段 时 间 内 改变 该 位 。 
尽管 需要 刷新 电路 ,但 DRAM 的 成 本 和 功 耗 优 势 非常 有 利 ， 以 至 于 大 多 数 计算 机 存储 器 由 
DRAM 而 不 是 SRAM 组 成 。 


11.4 内存 技 术 的 两 个 主要 度量 


架构 师 使 用 多 种 量化 度量 方法 来 评估 内 存 技 术 ， 以 下 两 种 表现 突出 : 
。 密度 。 
e 延迟 和 周期 时 间 。 


11.5 ”密度 


严格 意义 上 ,术语 “密度 ”是 指 硅 的 每 平方 面积 的 内 存单 元 的 数量 。 然 而 ， 在 实践 中 ， 
密度 通常 是 指 可 以 在 标准 尺寸 的 芯片 或 插入 式 模块 上 可 表示 的 位 数 。 例 如 ， 双 列 直 插 式 内 存 
模块 (DIMM) 可 能 包含 一 组 提供 1.28 亿 个 位 置 的 芯片 ， 每 个 位 置 64 位 ， 等 于 81.92 亿 位 
或 1GB。 非 正式 称 之 为 1 gig 模块 。 通 常 需要 更 高 的 密度 ， 因 为 这 意味 着 相同 的 物理 尺寸 下 
可 以 有 更 多 的 内 存 。 然 而 ， 更 高 的 密度 会 导致 增加 功率 利用 和 增加 产生 的 热量 等 缺点 。 

内 存 芯片 的 密度 与 底层 硅 技 术 中 的 晶体 管 尺 寸 有 关 ， 该 技术 遵循 摩尔 定律 。 因 此 ， 内 存 
密度 大 约 每 十 八 个 月 增加 一 倍 。 


11.6 读 与 性 能 的 分 离 


内 存 技术 的 第 二 项 度量 重点 是 速度 : 内 存 对 请 求 的 响应 速度 有 多 快 ? 看 起 来 速度 应 该 很 
容易 衡量 ， 但 事实 并 非 如 此 。 例 如 ， 正 如 前 一 章 讨论 的 那样 ， 一 些 内 存 技术 的 写 信 时间 比 读 
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取 时 间 要 长 得 多 。 要 选择 合适 的 内 存 技 术 ， 架构 师 需 要 了 解 访问 成 本 和 更 新 成 本 。 因 此 ， 出 
现 了 一 条 原则 : 


ee ep td 
不 同 ， 并 且 才 并 可 能 很 大 。 辐 此， ee E 
和 写 操作 的 性 能 。 。 













11.7 “延迟 和 内 存 控制 器 


除了 分 离 读 写 操作 之 外 ， 我 们 还 必须 确定 要 测量 什么 。 看 起 来 ， 最 重要 的 衡量 标准 是 延 
迟 ( 即 ， 从 操作 开始 到 操作 结束 之 间 持 续 的 时 间 )。 但 是 ， 廷 迟 是 一 种 简单 的 措施 ， 不 能 提 
供 完 整 的 信息 。 

要 了 解 为 什么 延迟 不 足以 衡量 内 存 性 能 ， 我 们 需要 了 解 便 件 的 工作 原理 。 除 了 内 存世 
之 外 ， 额 外 的 硬件 称 为 内 存 控制 器 (本 章 稍 后 会 详细 介绍 )， 其 提供 处 理 器 和 内 存 之 间 的 接 
口 。 图 11.3 说 明了 这 个 组 织 。 





图 11.3 ”用 于 内 存 访问 的 硬件 示意 图 ， 控 制 器 位 于 处 理 器 和 物理 内 存 之 间 


为 了 访问 内 存 ， 设 备 (通常 是 处 理 器 ) 向 控制 器 提出 读 取 或 写 入 请 求 。 控 制 器 将 请 求 转 
换 为 适合 底层 内 存 的 信号 ， 并 将 信号 传递 给 内 存 芯 片 。 为 了 使 延迟 最 小 化 ， 控 制 器 尽 可 能 快 
地 返回 应 答 〈 即 ， 尽 可 能 快 的 内 存 响 应 )。 然 而 ， 在 它 响 应 设备 之 后 ， 控 制 器 可 能 需要 额外 
的 时 钟 周期 来 重 置 硬件 电路 并 为 下 一 次 操作 做 准备 。 

内 存 性 能 的 第 二 个 原则 出 现 了 : 


，，， 由 于 内 存 系统 在 操作 之 间 可 能 需要 额外 的 时 间 ， ee 性 
能 指标 雪 要 测量 连续 操作 所 雷 的 时 间 。 | 


也 就 是 说 ， 为 了 评估 内 存 系统 的 性 能 ， 我 们 需要 测量 系统 以 多 快速 度 执行 一 系列 操作 。 
工程 师 使 用 术语 内 存 周 期 来 捕捉 这 个 想法 。 具 体 来 说 ， 使 用 两 种 单独 的 度量 : 读 周期 时 间 
(缩写 为 tfRC) 和 写 周期 时 间 (缩写 为 tWC)。 

我 们 可 以 这 样 总 结 


ie el a 因为 它们 评估 内 存 系统 能 够 
处 理 连续 请 求 时 有 多 快 。 


11.8 同步 和 多 数据 速率 技术 
像 计 算 机 中 的 大 多 数 其 他 数字 电路 一 样 ， 内 存 系统 使 用 时 钟 来 精确 控制 何 时 开始 读 取 或 
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写 入 操作 。 如 图 11.3 所 示 ， 内 存 系统 还 必须 与 处 理 器 协调 。 控 制 器 也 可 以 与 IO 设备 协调 。 
如 果 处 理 器 的 时 钟 与 用 于 存储 器 的 时 钟 不 同 ， 会 发 生 什么 ? 答案 是 系统 仍然 有 效 ， 因 为 控制 
器 可 以 保存 来 自 处 理 器 的 请 求 或 来 自 存储 器 的 响应 ， 直 到 对 方 准备 好 。 

不 幸 的 是 ， 时 钟 频率 的 差异 会 影响 性 能 一 一 虽然 延迟 很 小 ， 但 是 如 果 在 每 个 内 存 引用 上 
发 生 延 迟 ， 累 积 效应 可 能 很 大 。 为 了 消除 延迟 ， 一 些 内 存 系统 使 用 同步 时 钟 系统 。 也 就 是 
说 ， 内 存 系统 使 用 的 时 钟 脉冲 与 用 于 运行 处 理 器 的 时 钟 脉 冲 对 齐 。 结 果 ， 处 理 器 不 需要 等 待 
内 存 引 用 完成 。 同 步 可 以 用 于 DRAM 或 SRAM; 这 两 种 技术 被 命名 如 下 : 

e。 SDRAM 一 一 同步 动态 随机 存 取 存储 器 。 

e SSRAM 一 一 同步 静态 随机 存 取 存 储 器 。 

在 实践 中 ,同步 一 直 有 效 ; 大 多 数 电脑 现在 使 用 同步 DRAM 作为 主要 的 存储 技术 。 

在 许多 计算 机 系统 中 ， 内 存 是 瓶颈 一 一 增加 内 存 性 能 可 提高 整体 性 能 。 因 此 ， 工 程 师 集 
中 精力 寻找 周期 时 间 较 短 的 内 存 技 术 。 一 种 方法 是 使 用 以 多 倍 于 正常 时 钟 的 速率 运行 内 存 系 
统 的 技术 (例如 ， 双 倍 或 者 四 倍 ) 。 由 于 时 钟 运行 速度 更 快 ， 内 存 可 以 更 快 地 传输 数据 。 这 
些 技术 有 时 称 为 快速 数据 速率 存储 器 ， 通 常 是 双 倍 数据 速率 或 者 四 倍数 据 速 率 。 快 速 数据 速 
率 存 储 器 已 经 取得 成 功 ， 现 在 已 经 成 为 大 多 数 计算 机 系统 的 标准 配置 ， 包 括 笔记 本 电脑 等 消 
费 系统 。 

虽然 我 们 已 经 介绍 了 亮点 ， 但 我 们 对 RAM 内 存 技术 的 讨论 并 没有 开始 说 明 架 构 师 可 以 
选择 的 范围 或 者 它们 之 间 的 细微 差别 。 例 如 ， 图 11.4 列 出 了 一 些 商 用 RAM 技术 : 

M 











A 


图 11.4 商用 RAM 技术 示例 ， 存 在 许多 其 他 技术 





11.9 内存 组 织 


回想 一 下 ， 内 存 有 两 个 关键 方面 : 底层 技术 和 内 存 组 织 。 正 如 我 们 所 看 到 的 ， 架 构 师 可 
以 从 各 种 内 存 技术 中 进行 选择 ; 我 们 现在 将 考虑 第 二 个 方面 。 内 存 组 织 是 指 硬件 的 内 部 结构 
和 内 存 呈 现 给 处 理 器 的 外 部 寻 址 结构 。 我 们 会 看 到 这 两 者 是 相关 的 。 


11.10 内存 访问 和 内 存 总 线 
为 了 理解 内 存 是 如 何 组 织 的 ， 我 们 需要 检查 访问 范式 。 回 想 一 下 图 11.3 ， 内 存 控 制 器 提 
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供 了 物理 内 存 和 使 用 内 存 的 处 理 器 之 间 的 接口 ?出 现 了 几 个 问题 。 处 理 器 和 内 存 之 间 的 连接 
结构 如 何 ? 什么 值 通过 连接 传递 ?” 处理 器 如 何 查看 内 存 系统 ? 
为 了 实现 高 性 能 ， 内 存 系统 使 用 并 行 性 : 处 理 器 和 控制 器 之 间 的 连接 由 多 条 线 同 时 使 
用 。 每 根 电线 可 以 随时 传输 一 个 数据 位 。 图 11.5 说 明了 这 个 概念 。 
并 行 接口 


: 





物理 内 存 


图 11.5 处 理 器 和 内 存 之 间 的 并 行 连接 。 包 含 Y 条 导线 的 连接 允许 同时 传输 V 位 数据 


处 理 器 和 内 存 之 间 的 硬件 连接 的 技术 名 称 是 总 线 (更 具体 地 说 是 内 存 总 线 )。 我 们 将 在 
IO 章节 中 了 解 总 线 ; 就 目前 而 言 ， 知 道 总 线 提供 并 行 连接 就 足够 了 。 


11.11 字 、 物 理 地 址 和 内 存 传输 


内 存 总 线 的 并 行 连接 与 程序 员 和 计算 机 架构 师 有 
关 。 从 体系 结构 的 角度 来 看 ， 使 用 并 行 连接 可 以 提高 
性 能 。 从 编程 角度 来 看 ， 并 行 连接 定义 了 内 存 传 输 大 
小 ( 即 可 以 在 单个 操作 中 读 取 或 写 人 内 存 的 数据 量 )。 
我 们 将 看 到 传输 大 小 是 内 存 组 织 的 一 个 关键 方面 。 

为 了 允许 并 行 访问 ,组 成 物理 内 存 的 位 被 划分 成 
许多 块 ， 每 块 N 人 位， 其 中 入 是 内 存 传输 大 小 。 一 个 N 
位 的 块 有 时 称 为 一 个 字 ， 传送 大 小 称 为 字 大 小 或 一 个 
字 的 宽度 。 我 们 可 以 将 内 存 组 织 成 一 个 数组 。 为 数组 
中 的 每 个 条 目 分 配 一 个 唯一 索引 ， 称 为 物理 内 存 地 址 ; 
该 方法 称 为 字 寻 址 。 图 11.6 说 明了 这 个 想法 ， 并 且 显 。 图 11.6 一 个 字 大 小 为 32 位 的 计算 
示 了 物理 内 存 地 址 与 数组 索引 完全 相同 。 机 上 物理 内 存 地 址 示意 图 ， 


我 们 将 内 存 视 为 一 个 字数 组 
11.12 ”物理 内 存 操作 


物理 内 存 控制 器 支持 两 种 操作 : 读 取 和 写 入 。 在 读 操作 的 情况 下 ， 处 理 器 指定 一 个 地 址 ; 
在 写 操作 的 情况 下 ， 处 理 器 指定 地 址 以 及 要 写 人 的 数据 。 基 本 思想 是 控制 器 总 是 接受 或 传递 
整个 字 ; 物理 内 存 硬件 不 提供 读 取 或 写 人 少 于 一 个 完整 字 的 方式 ( 即 ， 硬 件 不 允许 处 理 器 访 
问 或 更 改 字 的 一 部 分 )。 
要 点 是 : 









唱 在 后 面 的 章节 中 ,我 们 将 了 解 到 1/ O 设备 也 通过 内 存 控制 器 访问 内 存 ; 现在 ， 我 们 将 在 示例 中 使 用 一 个 处 
理 器 。 
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11.13 内存 字 大 小 和 数据 类 型 


回想 一 让 ， 处 理 器 和 内 存 之 间 的 并 行 连接 是 为 高 性 能 而 设计 的 。 理 论 上 ， 通 过 增加 更 多 
的 并 行 连 线 可 以 提高 性 能 。 例 如 ， 具 有 128 根 导线 的 接口 可 以 以 具有 64 根 导线 的 接口 的 两 
倍速 率 传输 数据 。 问 题 出 现 了 : 架构 师 应 该 选择 多 少 条 电线 ? 也 就 是 说 ， 字 大 小 为 多 少 是 最 
优 的 ? 这 个 问题 很 复杂 ， 有 几 个 因素 。 首 先 ， 因 为 内 存 用 于 存储 数据 ， 所 以 字 大 小 应 该 适应 
公共 数据 值 ( 例 如 ， 该 字 应 该 足够 大 以 容纳 一 个 整数 )。 其 次 ， 由 于 内 存 用 于 存储 程序 ， 因 
此 字 大 小 应 该 适应 经 常 使 用 的 指令 。 第 三 ， 因 为 处 理 器 与 内 存 的 连接 需要 处 理 器 上 的 引 脚 ， 
所 以 在 接口 中 增加 连 线 会 增加 引 脚 需求 ( 引 脚 数量 可 能 是 设计 CPU 芯片 的 限制 因素 )。 因 
此 ， 字 的 大 小 选择 成 为 性 能 和 其 他 各 种 考虑 之 间 的 折 中 。32 位 的 字 大 小 很 受 欢 迎 ， 特 别 是 
对 于 低 功 耗 系统 ; 许多 高 性 能 系统 使 用 64 位 字 大 小 。 

在 大 多 数 情 况 下 ， 架 构 师 设计 计算 机 系统 的 所 有 部 分 以 便 一 起 工作 。 因 此 ， 如 果 架 构 师 
选择 一 个 32 位 的 内 存 字 大 小 ， 他 将 制定 一 个 标准 整数 和 一 个 单 精 度 浮 点 值 均 占用 32 位 。 结 
果 ， 计 算 机 系统 的 特征 常常 在 于 指出 字 的 大 小 〈 例 如 ,一 个 32 位 处 理 器 )。 


11.14 ” 字 节 寻 址 和 将 字 节 映射 到 字 


使 用 传统 计算 机 的 程序 员 可 能 会 惊讶 于 将 物理 内 存 组 织 成 字 ， 因 为 大 多 数 程序 员 都 熟悉 
称 为 字 节 寻 址 的 替代 形式 的 寻 址 。 字 节 寻 址 对 于 编程 尤其 方便 ， 因 为 它 使 程序 员 能 够 轻松 访 
问 诸如 字符 等 小 数据 项 。 

从 概念 上 讲 ， 当 使 用 字 节 寻 址 时 ， 内 存 必 须 组 织 为 一 个 字 节 的 阵列 而 不 是 字 阵 列 。 选 择 
字 节 寻 址 有 两 个 重要 的 后 果 。 首 先 ， 因 为 内 存 的 每 个 字 节 都 被 分 配 了 一 个 地 址 ， 所 以 字 节 寻 
址 需要 比 字 寻 址 更 多 的 地 址 。 其 次 ， 由 于 字 节 寻 址 允许 程序 读 取 或 写 人 单个 字 节 ， 因 此 内 存 
控制 器 必须 支持 字 节 传输 。 

较 大 的 字 长 可 以 提高 性 能 ， 因 为 可 以 同时 传输 多 个 位 。 不 幸 的 是 ， 如 果 字 大 小 等 于 一 个 
8 位 的 字 节 ， 则 一 次 只 能 传输 8 位 。 也 就 是 说 ， 为 字 节 寻 址 而 构建 的 内 存 系统 的 性 能 要 低 于 
为 较 大 字 长 而 构建 的 内 存 系统 。 有 趣 的 是 ， 即 使 使 用 字 节 寻 址 ， 处 理 器 和 内 存 之 间 的 许多 传 
输 也 涉及 多 个 字 节 。 例 如 ， 一 条 指令 占用 多 个 字 节 ， 就 像 一 个 整数 、 一 个 浮 点 值 和 一 个 指针 
一 样 。 

我 们 能 否 设 计 一 种 字 寻 址 速度 更 快 的 内 存 系统 ， 兼 顾 考虑 字 节 寻 址 便于 编程 的 特性 呢 ? 答 
案 是 肯定 的 。 为 此 ， 我 们 需要 一 个 能 够 在 两 种 地 址 方案 之 间 转 换 的 智能 内 存 控制 器 。 控 制 器 接 
受 来 自 处 理 器 的 请 求 ， 包 含 指定 字 节 地 址 和 大 小 。 控 制 器 使 用 字 寻 址 访问 底层 存储 器 中 的 适当 
字 并 提取 指定 的 字 节 。 图 11.7 给 出 了 字 节 寻 址 和 字 寻 址 之 间 映 射 的 例子 ， 字 长 为 32 位 。 

为 了 实现 图 11.7 中 所 示 的 映射 ， 控 制 器 必须 将 处 理 器 发 出 的 字 节 地 址 转换 为 内 存 系统 
使 用 的 字 地 址 。 例 如 ， 如 果 处 理 器 请 求 字 节 地 址 17 的 读 取 操 作 ， 则 控制 器 必须 发 出 对 字 4 
的 读 取 请 求 ， 然 后 从 该 字 中 提取 第 二 个 字 节 。 

由 于 内 存 一 次 只 能 传输 整个 字 ， 所 以 字 节 写 入 操作 很 昂贵 。 例 如 ， 如 果 处 理 器 写 人 字 节 
11， 则 控制 器 必须 从 内 存 读 取 字 2， 替 换 最 右边 的 字 节 ， 然 后 将 整个 字 写 回 存储 器 。 

在 数学 上 ， 地 址 转换 很 简单 。 为 了 将 字 节 地 址 8 转换 为 相应 的 字 地 址 天 ， 控 制 器 将 B 
除 以 N (每 个 字 的 字 节 数 )， 并 且 忽 略 余数 。 类 似 地 ， 为 了 计算 字 中 的 字 节 偏 移 量 O， 控 制 器 
计算 B 除 以 N 的 余数 。 也 就 是 说 ， 字 地 址 由 此 计算 出 : 
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偏 移 量 由 此 计算 出 : 
O=BmodN 
物理 地 址 : 





| 


字 节 地 址 ， 分 配 到 每 一 个 字 的 每 一 个 字 节 


OO 一 DD 人 wm 


图 11.7 字 节 寻 址 的 示例 ， 即 使 底层 硬件 使 用 字 寻 址 和 32 位 字 大 小 ， 地 址 分 配 到 内 存 的 每 个 字 节 
作为 例子 ， 考 虑 图 11.7 中 的 值 ， 其 中 NM = 4。11 转换 为 字 地 址 2 和 偏 移 量 3， 这 意味 着 
字 节 11 在 字 2 中 的 字 节 偏 移 量 3 处 ( 偏 移 量 从 零 开 始 计量 ) 找到 。 
11.15 使 用 2 的 究 


执行 除法 或 计算 余数 是 耗 时 的 并 且 需 要 额外 的 硬件 (例如 ,算术 逻辑 单元 )。 为 了 避免 
计算 ， 架 构 师 使 用 2 的 震 来 组 织 内 存 。 这 样 做 意味 着 硬件 可 以 简单 地 通过 提取 位 来 执行 上 述 
两 个 计算 。 在 图 11.7 中 , 例如,，N = 2"， 这 意味 着 可 以 通过 提取 两 个 低位 来 计算 偏 移 ， 并 且 
可 以 通过 提取 除了 两 个 低位 之 外 的 所 有 内 容 来 计算 字 地 址 。 图 11.8 说 明了 这 个 想法 。 


字 节 地 址 B (17) 


ss 
0 Qad 0 相生 | 
Ne 


字 地 址 所 (4) 偏 移 量 0(1) 
图 11.8 ”从 字 节 地 址 17 到 字 地 址 4 和 偏 移 量 1 的 映射 示例 。 对 于 每 个 字 的 字 节 数 ， 使 用 2 的 
震 来 避免 算术 计算 


我 们 可 以 这 样 总 结 : 





11.16 ” 字 节 对 齐 和 编程 


了 解 底层 硬件 如 何 工作 有 助 于 解释 程序 员 遇 到 的 一 个 概念 : 字 节 对 齐 。 如 果 一 个 整数 的 
字 节 对 应 于 底层 物理 内 存 中 的 一 个 字 ， 我 们 说 整数 值 是 对 齐 的 。 例 如 ， 在 图 11.7 中 ， 由 字 
节 12、13、14 和 15 组 成 的 整数 是 对 齐 的 ， 但 由 字 节 6、7、8 和 9 组 成 的 整数 则 不 是 。 
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在 某 些 体系 结构 中 ， 字 节 对 齐 是 必要 的 一 一 如 果 程 序 尝 试 使 用 非 对 齐 地 址 进行 整数 访 
问 ， 则 处 理 器 会 产生 错误 。 在 其 他 处 理 器 上 ， 人 允许 任意 对 齐 ， 但 未 对 齐 的 访问 会 导致 性 能 低 
于 对 齐 的 访问 。 我 们 现在 可 以 理解 为 什么 一 个 不 对 齐 的 地 址 需要 更 多 的 物理 内 存 访问 : 内 存 
控制 器 必须 将 每 个 处 理 器 请 求 转换 为 底层 内 存 上 的 操作 。 如 果 一 个 整数 跨越 两 个 字 ， 那 么 控 
制 器 必须 执行 两 次 读 取 操 作 才 能 获得 所 请 求 的 字 节 。 因 此 ， 即 使 处 理 器 允许 不 对 齐 访 问 ， 也 
强烈 鼓励 程序 员 对 齐 数据 值 。 

我 们 可 以 这 样 总 结 : 





11.17 内存 大 小 和 地 址 空间 


内 存 有 多 大 ? 看 起 来 内 存 大 小 似乎 只 是 一 个 经 济 问题 一 一 更 多 的 内 存 只 需要 花费 更 多 的 
钱 。 然 而 ， 尺 寸 是 内 存 架构 的 一 个 重要 方面 ， 因 为 整体 内 存 大 小 与 其 他 设计 选择 有 着 内 在 的 
联系 。 具 体 来 说 ， 寻 址 方案 确定 最 大 内 存 大 小 。 

回想 一 下 ， 处 理 器 中 的 数据 通路 由 并 行 硬件 组 成 。 设 计 处 理 器 时 ， 设 计 人 员 必 须 为 每 个 
数据 通路 、 寄 存 器 和 其 他 硬件 单元 选择 一 个 尺寸 。 选 择 设 置 了 地 址 大 小 的 一 个 固定 的 边界 ， 
地 址 会 产生 或 者 从 一 个 单元 传递 到 另 一 个 单元 。 通 常 ， 地 址 大 小 与 整数 大 小 相同 。 例 如 ， 使 
用 32 位 整数 的 处 理 器 使 用 32 位 地 址 ， 使 用 64 位 整数 的 处 理 器 使 用 64 位 地 址 。 正 如 第 3 章 
指出 的 那样 ， 一 串 上 位 可 以 表示 2 个 值 。 因 此 ， 一 个 32 位 的 值 可 以 表示 : 

2 =4294 967 296 
个 唯一 地 址 ( 即 地 址 0 到 4 294 967 295 ) 。 我 们 使 用 术语 地 址 空间 来 表示 一 组 可 能 的 地 址 。 

字 节 寻 址 和 字 寻 址 之 间 的 权衡 现在 是 明确 的 : 给 定 一 个 固定 的 地 址 大 小 ， 可 寻 址 的 内 存 
量 取决 于 处 理 器 是 使 用 字 节 寻 址 还 是 字 寻 址 。 此 外 ， 如 果 使 用 字 地 址 ， 可 以 寻 址 的 内 存量 取 
决 于 字 的 大 小 。 例 如 ， 在 一 台 使 用 字 寻 址 的 计算 机 上 ， 每 个 字 使 用 4 字 节 ， 则 32 位 值 可 以 
保存 充足 的 地 址 ， 即 17 179 869 184 字 节 (是 使 用 字 节 寻 址 时 的 四 倍 ) 。 


11.18 ”使 用 字 寻 址 的 编程 


许多 处 理 器 使 用 字 节 寻 址 ， 因 为 字 节 寻 址 为 程序 员 提供 了 最 方便 的 接口 。 但 是 ， 字 节 寻 
址 不 能 最 大 化 内 存 大 小 。 因 此 ， 诸 如 为 数字 处 理 而 设计 的 处 理 器 之 类 的 专用 系统 使 用 字 寻 址 
来 为 给 定 地 址 长 度 提供 最 大 内 存 大 小 的 访问 。 

在 使 用 字 寻 址 的 处 理 器 上 ， 软 件 必须 处 理 字 节 操作 的 细节 。 本 质 上 ， 软 件 在 字 节 寻 址 体 
系 结构 中 执行 与 内 存 控制 器 相同 的 功能 。 例 如 ， 要 提取 单个 字 节 ， 软 件 必须 从 内 存 中 读 取 
适当 的 字 ， 然 后 提取 该 字 节 。 同 样 ， 为 了 写 入 一 个 字 节 ， 软 件 必 须 读 取 包 含 字 节 的 字 ， 更 新 
正确 的 字 节 ， 并 将 修改 后 的 字 写 回 存储 器 。 为 了 优化 软件 性 能 ， 使 用 逻辑 移 位 和 位 掩 码 来 操 
纵 地 址 而 不 是 除法 或 余数 计算 。 类 似 地 ， 移 位 和 逻辑 操作 用 于 从 字 中 提取 字 节 。 例 如 ， 要 从 
32 位 字 w 中 提取 最 左边 的 字 节 ， 程 序 员 可 以 编写 一 个 C 语句 : 

(w >> 24 ) & 0xff 

该 代码 与 常数 0xff 执行 逻辑 与 ， 以 确保 在 执行 移 位 后 仅 保 留 低 8 位。 为 了 理解 为 什么 需 
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要 逻辑 与 ， 从 第 3 章 回想 一 下 右 移 传播 符号 位 。 因 此 ， 如 果 w 包 含 0xalb2c3d2， 表 达 式 
w>> 24 将 产生 0xffffffal。 逻 辑 与 之 后 ， 结 果 是 0xal。 

11.19 ”内 存 大 小 和 2 的 究 

我 们 说 过 ， 物 理 内 存 体系 结构 可 以 表征 如 下 : 


nn 












对 字 大 小 和 地 址 空间 大 小 使 用 2 的 需 有 一 个 有 趣 的 结果 : 最 大 内 存量 总 是 2 的 过 ， 而 


不 是 10 的 宕 。 因 此 ， 内 存 大 小 以 2 的 寡 度 量 。 例 如 ， 千 字 节 (KB) 定义 为 由 2" 字 节 组 成 ， 
兆 字 节 (MB) 定义 为 由 22 字 节 组 成 ， 并 且 千 光 字 节 ( GB) 定义 为 由 2” 字 节 组 成 。 这 个 术 
语 很 混乱 ， 因 为 它 是 一 个 例外 。 例 如 ， 在 计算 机 网 络 中 ， 每 秒 兆 位 (Megabits) 的 度量 的 基 
数 是 10。 因 此 ， 在 将 内 存 大 小 与 其 他 测量 结果 混合 在 一 起 时 《〈 例 如， 尽管 每 字 节 有 8 位 ， 内 
存 中 一 千 字 节 的 数据 并 不 比 通过 网 络 发 送 的 一 千 位 的 数据 大 8 倍 )。 我 们 可 以 这 样 总 结 : 





11.20 ”指针 和 数据 结构 


内 存 地 址 很 重要 ， 因 为 它们 构成 了 常用 数据 抽象 的 基础 ， 例 如 链表 、 队 列 和 树 。 因 此 ， 
编程 语言 通常 提供 功能 ， 人 允许 程序 员 声 明 一 个 指针 变量 ,该 指针 变量 包含 一 个 内 存 地 址 ， 为 
一 个 指针 赋值 ， 或 者 取消 引用 指针 以 获得 一 个 项 。 例 如 ,在 C 编程 语言 中 ， 声 明 语 句 : 

char *cptr; 
将 变量 cptr 声明 为 一 个 指向 字符 的 指针 《〈 即 指向 内 存 中 的 一 个 字 节 )。 编 译 器 为 变量 cptr 
分 配 一 个 内 存 地 址 大 小 的 存储 空间 ， 并 允许 将 该 变量 赋值 为 内 存 中 任意 字 节 的 地 址 。 
自 增 语句 : 
cptr 十 十 ; 
将 cptr 的 值 增加 1 ( 即 ， 移 动 到 存储 器 中 的 下 一 个 字 节 )。 

有 趣 的 是 ，C 编程 语言 具有 字 节 寻 址 和 字 寻 址 的 传统 。 当 对 指针 进行 算术 运算 时 ，C 语 

言 提 供 了 指 代 项 的 存储 大 小 。 作 为 一 个 例子 ， 声 明 语句 : 

int *iptr; 
将 变量 iptr 声明 为 指向 整数 的 指针 ( 即 指向 一 个 字 的 指针 )。 编 译 器 为 变量 iptr 分 配 的 
存储 空间 等 于 内 存 地 址 的 长 度 ( 即 ,与 为 上 面 的 cptr 分 配 的 大 小 相同 )。 但 是 ， 如 果 编 译 
程序 并 在 定义 一 个 整数 为 4 字 节 的 处 理 器 上 运行 ， 则 自 增 语句 : 

iptr 二 + ; 
将 iptr 的 值 增加 了 4。 也 就 是 说 ， 如 果 iptr 被 声明 为 内 存 中 一 个 字 的 起 始 字 节 地 址 ， 则 
自 增 语句 将 移 至 内 存 中 下 一 个 字 的 字 节 地 址 。 

实际 上 ， 上 面 的 所 有 例子 都 假设 了 一 个 字 节 寻 址 的 计算 机 。 编 译 器 生成 代码 将 字符 指针 
加 1 和 整数 指针 加 4。 尽管 C 语言 具有 人 允许 指针 从 一 个 字 移 动 到 另 一 个 字 的 机 制 ， 但 该 语言 
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旨 在 用 于 字 节 寻 址 内 存 。 


11.21 内 存 转 储 


在 一 个 简单 的 例子 帮助 我 们 理解 指针 和 内 存 地 址 之 间 的 关系 。 考 虑 一 个 链表 ， 如 图 11.9 
所 示 。 





图 11.9 链表 的 例子 。 列 表 中 的 每 个 指针 都 对 应 一 个 内 存 地 址 


要 创建 这 样 一 个 列表 ,程序 员 必须 编写 一 个 声明 来 指定 节点 的 内 容 ， 然 后 必须 分 配 内 存 
来 保存 列表 。 在 这 个 简单 的 例子 中 ， 列 表 中 的 每 个 节点 将 包含 两 个 项 : 一 个 整数 计数 器 和 一 
个 指向 列表 中 下 一 个 节点 的 指针 。 在 C 语言 中 ， 结 构 声明 用 于 定义 节点 的 内 容 : 

struct node { 


int count; 


struct node *next; 


} 
同样 ， 一 个 名 为 head 的 变量 作为 列表 的 头 部 定义 为 : 
struct node * head ; 
要 理解 列表 在 内 存 中 的 显示 方式 ， 请 考虑 内 存 转 储 ， 如 图 11.10 所 示 9 。 





地 址 内 存 的 内 容 
0001bde0 00000000 000lbdf8 。 deadbeef 4420436f 
0001bdf0 6d657200 000lbel8 000000c0 0001be14 
0001be00 00000064 ”00000000 ”00000000 ”00000002 
0001be10 00000000 000000c8 0001be00 00000006 
图 11.10 一 小 部 分 的 内 存 内 容 转 储 的 展示 。 地 址 列 给 出 了 本 行 中 最 左边 字 节 的 内 存 地 址 ， 所 
有 值 都 以 十 六 进 制 显示 


图 11.10 中 的 示例 取 自 使 用 字 节 寻 址 的 处 理 器 。 图 中 的 每 一 行 对 应 于 内 存 中 16 个 连续 
的 字 节 ， 分 成 四 个 组 ， 每 组 4 个 字 节 。 每 个 组 包含 八 个 十 六 进 制 数字 来 表示 四 个 字 节 的 值 。 
行 开头 的 地 址 指定 该 行 第 一 个 字 节 的 内 存 地 址 。 因 此 ， 每 行 的 地 址 比 前 一 行 的 地 址 大 16。 

假设 链表 的 头 部 位 于 地 址 0x0001bde4 处 ， 该 地 址 位 于 转 储 的 第 一 行 。 列 表 的 第 一 个 节点 
从 地 址 0x0001bdf8 开始 ， 位 于 转 储 的 第 二 行 ， 并 包含 整数 192 (十 六 进 制 常数 000000c0 )。 

处 理 器 使 用 字 节 寻 址 ， 并 且 内 存 字 节 是 连续 的 。 在 图 11.10 中 , 插入 了 空格 以 将 输出 分 
成 多 个 字 节 组 来 提高 可 读 性 。 具 体 地 说 ， 该 例子 显示 了 四 字 节 的 组 ， 这 意味 着 指 代 字 大 小 是 
四 个 字 节 ( 即 ，32 位 )。 


11.22 ”间接 寻 址 和 间接 操作 数 
当 我 们 在 第 7 章 中 讨论 操作 数 和 寻 址 模式 时 ， 出 现 了 间接 寻 址 的 话题 。 现 在 我 们 了 解 了 


日 如 图 11.10 所 示 ， 程 序 员 可 以 将 内 存 初 始 化 为 十 六 进 制 值 ， 使 得 更 易于 识别 内 存 转 储 中 的 项 。 在 这 个 例子 
中 ， 程 序 员 使 用 了 deadbeef 值 ( 即 0xDEADBEEF )。 
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内 存 组 织 ， 我 们 可 以 理解 处 理 器 如 何 评估 间接 操作 数 。 举 一 个 例子 ,假设 一 个 处 理 器 执行 一 
条 指令 ， 其 中 一 个 操作 数 指定 一 个 0xlbelf 的 立即 数 ， 并 指定 间接 寻 址 。 进 一 步 假设 处 理 
器 被 设计 为 使 用 32 位 值 。 由 于 操作 数 指定 了 立即 数 ， 处 理 器 将 首先 加 载 立即 数 (十 六 进 制 
值 1belf)。 由 于 操作 数 指定 了 间接 寻 址 ， 因 此 处 理 器 将 结果 值 视 为 内 存 中 的 地 址 ， 并 从 该 
地 址 中 提取 字 。 如 果 内 存 中 的 值 对 应 于 图 11.10 中 所 示 的 值 ， 则 处 理 器 将 从 图 的 最 后 一 行 中 
的 最 右边 的 字 处 加 载 该 值 ， 并 且 最 终 的 操作 数值 将 是 6。 


11.23” 带 有 独立 控制 器 的 多 个 内 存 


我 们 对 物理 内 存 的 讨论 假定 了 单个 内 存 和 单个 内 存 控制 器 。 然 而 ， 在 实践 中 ， 一 些 体系 
结构 包含 多 个 物理 内 存 。 当 使 用 多 个 内 存 时 ， 可 以 
采用 硬件 并 行 性 来 提供 更 高 的 内 存 性 能 。 内 存 系统 
可 以 有 多 个 并 行 操作 的 控制 器 ， 而 不 是 单个 内 存 和 
单个 控制 器 ， 如 图 11.11 所 示 。 

在 图 11.11 中 ,接口 硬件 接收 来 自 处 理 器 的 请 
求 。 接 口 使 用 请 求 中 的 地 址 来 决定 应 该 使 用 哪个 内 
存 模块 ， 并 将 请 求 传递 给 相应 的 内 存 控制 器 9。 

为 什么 有 多 个 内 存 ， 且 每 个 都 有 自己 的 控制 
器 ? 请 记 住 ， 在 访问 内 存 之 后 ， 必 须 重 置 硬件 才能 
进行 下 一 次 访问 。 如 果 有 两 个 存储 器 可 用 ， 当 一 个 
存储 器 正在 重 置 时 ， 程 序 员 可 以 安排 访问 另 一 个 存 。 “图 1111 县 有 单独 控制 器 的 两 个 内 存 模 
储 器 ， 从 而 提高 整体 性 能 。 也 就 是 说 ， 因 为 内 存 控 据 的 连接 示意 图 
制 器 可 以 并 行 操作 ， 所 以 使 用 两 个 内 存 控制 器 可 
以 在 单位 时 间 内 进行 更 多 的 内 存 访问 。 例 如 ， 在 哈佛 体系 结构 中 ， 由 于 取 指 不 会 干扰 数据 访 
问 ， 因 此 性 能 更 高 ， 反 之 亦 然 。 


11.24 ”内 存 的 存储 体 





多 个 物理 内 存 也 可 以 与 汉 : 诺 依 曼 体系 结构 一 2M-1 
起 使 用 ， 作 为 一 种 便利 途径 ， 可 以 通过 复制 小 的 内 
存 模 块 形成 较 大 的 内 存 。 这 种 想法 ( 即 内 存 的 存储 内 存 模块 2 
体 ) 使 用 接口 硬件 将 地 址 映射 到 两 个 物理 内 存 上 。 
例如 ， 假 设 两 个 相同 的 内 存 模块 都 被 设计 为 具有 物 et 
理 地 址 0 到 M-1。 该 接口 可 以 将 它们 视 为 两 个 存 
储 体 ， 它 们 形成 具有 两 倍 地 址 的 连续 大 内 存 ， 如 内 存 模块 1 
图 11.12 所 示 。 
在 图 11.12 中 ， 将 地 址 0 到 M-1 分 配给 一 个 
存储 体 ， 将 从 M 到 2WM-1 的 地 址 分 配给 第 二 个 存 图 11.12 ”两 个 相同 的 内 存 存储 体 的 逻辑 
储 体 。 在 第 13 章 中 ， 我 们 将 看 到 映射 地 址 可 以 非 安排 ， 以 形成 两 倍 大 小 的 单一 
常 有 效 。 内 存 


日 第 13 章 解释 了 该 接口 充当 内 存 管理 单元 (MMU)， 并 说 明了 更 详细 的 功能 。 
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尽管 存储 体 可 以 通过 安排 形成 一 个 设想 中 的 大 内 存 ， 其 底层 硬件 配置 如 图 11.11 所 示 。 
从 而 ， 两 个 内 存 存 储 体 的 控制 器 可 以 并 行 工 作 。 因 此 ， 如 果 指 令 放 置 在 一 个 存储 体 并 且 数 据 
存放 在 另 一 个 存储 体 中 ， 则 可 能 会 导致 更 高 的 性 能 ， 因 为 取 指 操作 不 会 干扰 数据 访问 ， 反 之 
亦 然 。 

内 存 存储 体 对 程序 员 来 说 如 何 ? 在 大 多 数 体 系 结构 中 ， 内 存 存储 体 都 是 透明 的 一 一 内 存 
硬件 会 自动 查找 并 利用 并 行 性 。 在 人 艇 人 式 系统 和 其 他 专用 架构 中 ， 程 序 员 可 能 负责 将 一 些 项 
放 入 单独 的 存储 体 以 提高 性 能 。 例 如 ， 程 序 员 可 能 需要 将 代码 放 在 低 内 存 地 址 ， 而 数据 项 放 
在 高 内 存 地 址 。 


11.25 ”交叉 存 取 


用 于 物理 内 存 系统 的 一 个 相关 的 优化 方法 称 为 交叉 存 取 。 为 了 理解 优化 ， 观 察 到 许多 程 
序 从 连续 内 存 位 置 访问 数据 。 例 如 ， 如 果 长 文本 字符 串 从 内 存 中 的 一 个 位 置 复制 到 另 一 个 位 
置 ， 或 者 一 个 程序 搜索 一 个 数据 项 列表 ， 则 会 引用 连续 的 内 存 位 置 。 在 内 存 存储 体 中 ， 连 续 
位 置 位 于 同一 个 存储 体 中 ， 这 意味 着 连续 访问 必须 等 待 控制 器 重 置 。 

交叉 存 取 利 用 了 独立 控制 器 的 思想 ， 但 不 是 将 内 存 组 织 成 多 存储 体 ， 而 是 将 连续 的 字 交 
又 放置 在 不 同 的 物理 内 存 模块 中 。 交 叉 存 取 实 现 了 在 连续 内 存 访问 期 间 的 高 性 能 ， 因 为 可 以 
在 前 一 个 字 的 内 存 复位 时 取出 后 续 的 一 个 字 。 交 叉 存 取 通 常 对 程序 员 隐 藏 一 一 程序 员 可 以 在 
不 知道 底层 内 存 系统 已 将 连续 字 映 射 到 单独 的 内 存 模块 的 情况 下 编写 代码 。 内 存 硬件 自动 处 
理 所 有 细节 。 

我 们 使 用 术语 N- 路 交叉 存 取 来 描述 底层 内 存 模块 的 数量 (为 了 使 该 方案 高 效 ，N 选择 
为 2 的 竹 )。 例 如 ， 图 11.13 说 明了 如 何以 4- 路 交叉 存 取 方案 将 内 存 字 分 配 到 内 存 模 块 。 


请 求 








图 11.13 4- 路 交叉 存 取 的 示意 图 ， 展 示 了 内 存 的 连续 字 的 放置 安排 以 优化 性 能 


如 何 有 效 地 实现 交叉 存 取 ? 答案 在 于 思考 二 进 制 表示 。 例 如 ， 在 图 11.13 中 , 字 0、4、 
8 等 全 部 位 于 内 存 模块 0 中 。 这 些 地 址 有 什么 共同 之 处 ? 当 以 二 进 制 表 示 时 ， 这 些 值 的 两 个 
低位 都 是 00。 类 似 地 ， 分 配给 模块 1 的 字 ， 其 低 两 位 都 是 01， 分 配给 模块 2 的 字 ， 其 低 两 
位 都 是 10， 并 且 分 配给 模块 3 的 字 ， 其 低 两 位 都 是 11。 因 此 ， 当 给 定 内 存 地 址 时 ， 接 口 硬 
件 提取 低 两 位 ， 并 使 用 它们 来 选择 模块 。 

有 趣 的 是 ， 在 模块 中 访问 正确 的 字 同 样 有 效 。 这 些 模 块 本 身 就 是 标准 的 内 存 模块 ， 它 提 
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供 一 组 从 0 到 K-1 的 字 (对 于 给 定 值 K)。 该 接口 忽略 地 址 的 两 个 低位 ， 并 将 其 余 的 位 用 作 
索引 输入 内 存 模块 。 要 明白 它 的 工作 原理 ,请 用 二 进 制 写 0,4,8,…， 并 删除 两 个 低位 。 结 果 
是 序列 0,1,2,…。 类 似 地 ， 从 1,5,9,… 中 移 除 两 个 低位 ， 也 会 导致 序列 0,1,2,…。 

我 们 可 以 总 结 一 下 : 


”如果 模块 的 数量 是 2 的 血 ， 刚 用 于 从 路 次 叶 有 取 的 太 件 非常 商 浆 ， 同 为 证 的 全 
位 用 于 选择 模块 ， 其 余 位 用 作 模 4 的 地 址 





11.26 内容 可 寻 址 存储 器 

存在 一 种 不 寻常 的 内 存 形式 ， 它 融合 了 我 们 讨论 的 两 个 关键 方面 : 技术 和 内 存 组 织 。 这 
种 形式 称 为 内 容 可 寻 址 存储 器 (CAM)。 正 如 我 们 将 看 到 的 ，CAM 不 仅仅 存储 数据 项 一 一 它 
包括 用 于 高 速 搜索 的 硬件 。 

考虑 CAM 的 最 简单 方法 是 将 其 视 为 组 织 为 二 维 数 组 的 内 存 。 每 一 行 用 于 存储 一 个 项 ， 
称 为 一 个 槽 口 (slot)。 除 了 允许 处 理 器 在 每 个 槽 口中 放置 一 个 值 之 外 ，CAM 还 允许 处 理 需 
指定 一 个 与 一 个 槽 口 一 样 长 的 搜索 关键 字 。 一 旦 指定 了 搜索 关键 字 ， 硬 件 就 可 以 执行 对 表格 
的 搜索 以 确定 是 否 有 任何 槽 口 与 搜索 关键 字 匹配 。 图 11.14 说 明了 CAM 的 组 织 结构 。 
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图 11.14 内 容 可 寻 址 存储 器 (CAM) 的 示意 图 ，CAM 提供 了 内 存 技术 和 内 存 组 织 


对 于 CAM 的 最 基本 形式 ， 搜 索 机 制 执行 完全 匹配 。 也 就 是 说 ，CAM 硬件 比较 每 个 槽 
口 的 关键 字 ， 并 报告 是 否 找到 匹配 项 。 与 传统 处 理 器 执行 的 迭代 搜索 不 同 ，CAM 即时 报告 
结果 。 实 质 上 ，CAM 中 的 每 个 槽 口 都 包含 执行 比较 的 硬件 。 我 们 可 以 想象 ， 关 键 字 的 所 有 
位 通过 连接 所 有 槽 口 的 电线 。 每 个 槽 口 都 包含 一 些 门 ， 用 于 将 关键 字 的 位 与 该 槽 口中 的 值 的 
位 进行 比较 。 由 于 所 有 槽 口 的 硬件 并 行 运行 ， 执 行 搜索 所 需 的 时 间 不 取决 于 槽 口 的 数量 。 

当然 ， 并 行 搜索 硬件 使 CAM 非常 昂贵 ， 因 为 搜索 机 制 必 须 针对 每 个 槽 口 进行 复制 。 这 
也 意味 着 CAM 比 常规 内 存 消耗 更 多 的 功率 (并 产生 更 多 的 热量 )。 因 此 ， 当 查找 速度 比 成 本 
和 功 耗 更 重要 时 ,架构 师 只 使 用 CAM。 例如 ， 在 高 速 互联 网 路 由 器 中 ， 系 统 必须 检查 每 个 
传人 数据 包 ， 以 确定 同一 个 源 的 其 他 数据 包 是 否 先前 已 经 到 达 。 为 了 处 理 高 速 连接 ， 一 些 设 
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计 使 用 CAM 来 存储 来 源 标识 符 列表 。CAM 允许 执行 足够 快 的 搜索 以 容纳 以 高 速率 ( 即 通 
过 高 速 网 络 ) 到 达 的 包 。 


11.27 三 态 内 容 可 寻 址 存储 器 


一 种 CAM 的 替代 形式 称 为 三 态 内 容 可 寻 址 存储 器 (TCAM)， 它 扩展 了 CAM 的 想法 
以 提供 部 分 匹配 搜索 。 本 质 上 ， 模 口中 的 每 个 位 可 以 有 三 个 值 : 0、1 或 “不 关心 ”。 与 标 
准 CAM 一 样 ，TCAM 通过 同时 检查 所 有 模 口 来 并 行 执行 搜索 操作 。 与 标准 CAM 不 同 ， 
TCAM 仅 在 值 为 0 或 1 的 位 上 执行 匹配 。 部 分 匹配 允许 在 CAM 中 两 个 或 多 个 条 目 重 释 的 情 
况 下 使 用 TCAM 一 一 TCAM 可 以 找到 最 佳 匹配 (例如 ， 最 长 的 前 组 匹配 ) 





11.28 ”小结 


我 们 研究 了 物理 内 存 的 两 个 方面 : 底层 技术 和 内 存 组 织 。 存 在 许多 内 存 技 术 。 它 们 之 间 
的 差异 包括 持久 性 (RAM 或 ROM)、 时 钟 同步 以 及 读 取 和 写 和 人 周期 时 间 。 

物理 内 存 被 组 织 成 字 并 通过 控制 器 访问 。 尽 管 程序 员 发 现 字 节 寻 址 很 方便 ,但 大 多 数 底 
层 存储 系统 都 使 用 字 寻 址 。 智 能 内 存 控制 器 可 以 从 字 节 寻 址 转换 为 字 寻 址 。 为 了 避免 在 控制 
器 中 进行 算术 计算 ， 内 存 的 组 织 方式 使 地 址 空间 和 每 个 字 的 字 节 数 为 2 的 寡 。 

编程 语言 (如 C 语言 ) 提供 了 指针 变量 和 指针 运算 ， 人 允许 程序 员 获 得 和 操作 内 存 地址。 
内 存 内 容 的 转 储 〈 依 照 每 一 个 位 置 的 内 存 地 址 显示 内 存 的 值 ) 可 用 于 将 程序 中 的 数据 结构 与 
运行 时 内 存 中 的 值 相 关联 。 

内 存 存储 体 和 交叉 存 取 都 采用 多 个 内 存 模块 。 存 储 体 用 于 组 织 较 小 的 模块 形成 大 内 存 。 
在 单独 的 模块 中 交叉 放置 连续 的 内 存 字 ， 以 加 速 连续 访问 。 

内 容 可 寻 址 存储 器 (CAM) 结合 了 内 存 技术 和 内 存 组 织 。CAM 将 内 存 组 织 为 一 组 模 口 ， 
并 提供 高 速 搜索 机 制 。 


习题 

11.1 智能 手机 和 其 他 便携 式 设备 通常 使 用 DRAM 而 不 是 SRAM。 解 释 为 什么 。 

11.2 解释 DRAM 刷新 机 制 的 用 途 。 

11.3 ”假设 一 台 计 算 机 有 一 个 组 织 成 64 位 字 的 物理 内 存 。 对 于 如 下 的 字 节 地 址 0、9、27、31、120 和 
256， 写 出 所 属 字 的 地 址 以 及 字 内 偏 移 量 。 

11.4 扩展 上 一 题 。 编 写 一 个 计算 机 程序 来 计算 答案 。 程 序 应 该 接受 一 系列 输入 ， 每 个 输入 由 两 个 值 
组 成 : 字 的 位 数 长 度 和 字 节 地 址 。 对 于 每 个 输入 ， 程 序 应 该 生成 一 个 字 地 址 以 及 字 内 偏 移 量 。 
注意 : 尽管 字 以 位 数 指定 长 度 ， 但 字 的 长 度 必 须 是 2 的 宕 个 字 节 。 

11.5 在 ARM 处 理 器 上 ， 如 果 地 址 不 是 4 字 节 的 倍数 ， 则 尝试 从 内 存 中 加 载 整 数 将 导致 错误 。 我 们 用 
什么 术语 来 指 代 这 样 的 错误 ? 

11.6 ”如 果 一 台 计 算 机 有 64 位 地 址 ， 并 且 每 个 地 址 对 应 一 个 字 节 ， 计 算 机 可 以 提供 多 少 GB 的 内 存 ? 

11.7 ”如果 指 令 和 两 个 操作 数 未 对 齐 ， 则 计算 双 地 址 指令 所 需 的 存储 器 操作 次 数 。 

11.8 编写 一 个 C 函数 ， 声 明 一 个 静态 整数 数组 M， 并 实现 提取 和 存储 操作 ， 并 且 须 使 用 移 位 和 布尔 
操作 来 访问 单个 字 节 。 

11.9 查找 PC 中 内 存 ， 确 定 所 用 芯片 的 类 型 ， 并 查看 供应 商 的 芯片 规格 以 确定 内 存 类 型 和 速度 。 

11.10 重新 绘制 图 11.13 中 的 8- 路 交叉 存 取 内 存 。 
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模拟 物理 内 存 。 写 一 个 C 程序 ， 声 明 一 个 数组 M， 存 储 10 000 个 整数 ( 即 一 个 字数 组 )。 实 现 
两 个 函数 fetch 和 store， 使 用 数组 M 来 模拟 字 节 寻 址 内 存 。fetch(i) 返回 内 存 的 第 i 个 
字 节 ，store(i,ch) 将 8 位 字符 ch 存储 到 内 存 的 第 i 个 字 节 中 。 不 要 使 用 字 节 指针 。 相 反 ， 
使 用 本 章 中 的 想法 ， 编 写 代 码 计算 包含 指定 字 节 的 字 的 地 址 以 及 其 在 对 应 字 内 的 偏 移 量 。 
模拟 TCAM。 编 写 一 个 程序 ， 利 用 一 组 模式 匹配 输入 字符 串 。 对 于 模拟 ， 使 用 字符 而 不 是 位 。 
允许 每 个 模式 包含 一 串 字 符 ， 并 将 星 号 解释 为 匹配 任何 字符 的 “通配符 ”。 你 能 找到 一 种 方法 
让 匹配 进行 得 比 迭代 所 有 模式 更 快 吗 ? 
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缓存 痕 和 缓存 





12.1 引言 


前 一 章 讨论 物理 内 存 系统 ， 重 点 介绍 用 于 构建 内 存 系统 和 地 址 空间 组 织 的 基础 技术 。 该 
章 还 讨论 了 将 物理 内 存 划 分 成 字 的 组 织 结构 。 

本 章 对 这 个 问题 有 不 同 的 看 法 : 不 是 聚焦 于 构建 内 存 系统 的 技术 ， 而 是 着 重 于 提高 内 存 
系统 性 能 的 技术 。 本 章 介绍 缓存 的 基本 概念 ， 说 明 如 何在 内 存 系统 中 使 用 缓存 ， 解 释 为 什么 
缓存 很 重要 ， 并 说 明 为 什么 缓存 以 低 成 本 实现 高 性 能 。 


12.2 在 存储 层级 上 的 信息 传播 


回顾 第 10 章 ， 存 储 机 制 被 组 织 成 一 个 包含 通用 寄存 器 、 主 存储 器 和 辅助 存储 器 的 层级 结 
构 。 数 据 项 在 层级 结构 上 上 下 迁移 ， 通 常 在 软件 的 控制 下 进行 。 通 常 ， 数 据 项 在 读 取 时 沿 层 
级 结构 向 上 移动 ; 在 写 人 时 ， 沿 层级 结构 向 下 移动 。 例 如 ， 当 为 算术 计算 生成 代码 时 ， 编 译 
器 会 安排 数据 项 从 内 存 移动 到 寄存 器 中 。 计 算 完成 后 ， 结 果 可 能 会 移 回 内 存 。 如 果 在 程序 结 
束 后 必须 保存 一 个 数据 项 ,程序 员 将 安排 把 该 项 从 内 存 复 制 到 辅助 存储 器 。 我 们 将 看 到 缓存 
如 何 适应 存储 层级 结构 ， 并 将 了 解 到 缓存 使 用 硬件 而 不 是 软件 在 其 层级 结构 中 上 下 移动 项 。 


12.3 缓存 的 定义 


术语 缓存 (caching) 是 指 一 种 重要 的 优化 技术 ， 用 于 提高 任何 硬件 或 软件 系统 检索 信息 
的 性 能 。 在 内 存 系统 中 ， 绥 存 可 以 减少 汉 “' 诺 依 曼 瓶颈 。 缓 在 充当 中 介 。 也 就 是 说 ， 一 个 组 
存 器 放置 在 发 出 请 求 的 机 制 和 响应 请 求 的 机 制 之 间 的 路 径 上 ， 缓 存 器 配置 为 拦截 并 处 理 所 有 
请 求 。 

缓存 的 核心 思想 是 高 速 的 临时 存储 : 缓存 器 保留 所 选 数据 的 本 地 副本 ， 并 尽 可 能 利用 
本 地 副本 响应 请 求 。 性 能 改进 的 原因 是 缓存 器 被 设计 为 可 以 比 通常 的 响应 机 制 更 快 的 应 答 。 
图 12.1 说 明了 如 何 将 缓存 器 放置 在 发 出 请 求 的 机 制 和 响应 请 求 的 机 制 之 间 。 


较 大 的 数据 存储 





12.1 缓存 器 的 概念 性 组 织 结构 ， 位 于 发 出 请 求 的 机 制 和 应 答 请 求 的 存储 机 制 之 间 的 路 径 上 


12.4 缓存 器 的 特征 
上 面 的 描述 是 有 目的 地 模糊 ， 因 为 缓存 是 一 个 广泛 的 概念 ， 在 计算 机 和 通信 系统 中 以 各 
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种 形式 出 现 。 本 节 通 过 更 详细 地 解释 概念 来 阐明 定义 ， 后 面 的 几 节 将 举例 说 明 如 何 使 用 缓存 。 

尽管 存在 各 种 缓存 机 制 ， 但 它们 具有 以 下 一 般 特 征 : 

@ 小 。 

。 主动 性 。 

e 透明 性 。 

e 自动 化 。 

小 。 为 了 降低 经 济 成 本 ,缓存 器 拥有 的 存储 容量 远 小 于 保存 整个 数据 项 所 需 的 存储 量 。 
大 多 数 缓存 器 的 大 小 不 到 主 存储 器 大 小 的 百 分 之 十 ; 在 许多 情况 下 ， 缓 存 器 保存 的 数据 量 不 
到 数据 存储 器 中 的 百 分 之 一 。 因 此 ， 中 心 设计 问题 之 一 是 围绕 着 选择 哪些 数据 项 保存 在 缓存 
器 中 。 

主动 性 。 缓 存 器 包含 一 个 检查 每 个 请 求 并 决定 如 何 响应 的 主动 机 制 。 主 动 性 包括 : 检查 
缓存 中 是 否 有 请 求 的 项 ; 如 果 该 项 在 本 地 不 可 用 ， 则 从 数据 存储 器 中 检索 该 项 的 副本 ; 确定 
要 保留 在 缓存 器 中 的 项 。 

透明 性 。 我 们 说 一 个 缓存 器 是 透明 的 ， 这 意味 着 缓存 器 可 以 插 人 ， 而 不 需要 修改 请 求 者 
或 数据 存储 器 。 也 就 是 说 ， 缓 存 器 呈现 给 请 求 者 的 接口 与 数据 存储 器 所 呈现 的 接口 完全 相 
同 ， 并 且 缓 存 器 呈现 给 数据 存储 器 的 接口 与 请 求 者 呈现 的 接口 完全 相同 。 

自动 化 。 在 大 多 数 情 况 下 ， 缓 存 机 制 不 会 接收 有 关 如 何 操作 或 要 将 哪些 数据 项 存储 在 组 
存 器 的 指令 。 相 反 ， 缓 存 器 实现 了 一 个 检查 请 求 序列 的 算法 ， 并 使 用 这 些 请 求 来 确定 如 何 管 
理 缓存 器 。 


12.5 ”缓存 术语 


虽然 缓存 可 在 各 种 环境 中 使 用 ， 但 与 缓存 相关 的 一 些 术 语 在 所 有 类 型 的 缓存 系统 中 都 得 
到 普遍 接受 。 缓 看 命中 (缩写 为 命中 ) 被 定义 为 缓存 器 满足 的 请 求 ， 无 须 访问 底层 数据 存储 
器 。 相 反 ， 缓 存 缺失 (缩写 为 缺失 ) 被 定义 为 缓存 器 无 法 满足 的 请 求 。 

另 一 个 术语 刻画 了 一 个 呈现 给 缓存 器 的 引用 序列 。 我 们 说 如 果 序 列 包 含 重 复 的 相同 请 
求 ， 则 引用 序列 呈现 出 高 引用 局 部 性 ; 否则 ， 我 们 说 该 序列 具有 较 低 的 引用 局 部 性 。 我 们 会 
看 到 ， 高 引用 局 部 性 会 导致 更 高 的 性 能 。 局 部 性 是 指 缓存 器 中 的 项 。 因 此 ， 如 果 缓 存 器 存储 
大 量 数据 项 〈 例 如 内 存 页 )， 那 么 重复 请 求 并 不 需要 相同 ， 只 要 它们 引用 缓存 器 中 的 相同 项 
(例如 ， 对 同一 页 上 的 项 的 内 存 引 用 )。 


12.6 最 好 和 最 坏 情 况 下 的 缓存 性 能 


我 们 说 过 ， 如 果 数 据 项 存储 在 缓存 器 中 ， 缓 存 机 制 可 以 比 数据 存储 器 更 快 地 返回 项 。 如 
图 12.2 所 示 ， 我 们 从 请 求 者 的 角度 来 展示 提取 的 成 本 。 


请 求 者 缓存 器 较 大 容量 的 存储 器 
图 12.2 使 用 缓存 器 时 的 访问 成 本 示例 ， 成 本 是 根据 请 求 者 来 度量 的 
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在 图 12.2 中 ， 如 果 在 高 速 缓存 中 找到 项 ( 即 命 中 )，C; 为 其 成 本 ， 如 果 在 高 速 缓存 中 未 
找到 项 ( 即 缺 失 ) 则 C, 为 其 成 本 。 有 趣 的 是 ， 单 独 的 成 本 并 不 一 定 有 益 。 请 注意 ， 因 为 组 
存 器 使 用 请 求 的 内 容 来 确定 要 保留 哪些 项 ， 所 以 性 能 取决 于 请 求 的 序列 。 因 此 ， 为 了 理解 组 
存 ， 我 们 必须 在 一 系列 请 求 中 检查 性 能 。 例 如 ， 我 们 可 以 轻松 分 析 包 含 N 个 请 求 的 序列 的 
最 好 和 最 坏 可 能 行为 。 在 某 种 极端 情况 下 ， 如 果 每 个 请 求 引用 一 个 新 项 ， 缓 存根 本 不 会 提高 
性 能 一 一 缓存 器 必须 将 每 个 请 求 转发 到 数据 存储 器 。 因 此 ， 在 最 坏 的 情况 下 ， 成 本 是 : 
Cot NG (21 
应 该 指出 ,我 们 的 分 析 忽 略 了 维护 缓存 器 所 需 的 管理 开销 。 如 果 我 们 除 以 入 来 计算 每 个 请 
求 的 平均 成 本 ， 则 结果 为 C,。 

另 一 方面 ， 如 果 序 列 中 的 所 有 请 求 都 指定 相同 的 数据 项 ( 即 引 用 的 最 高 局 部 性 )， 则 组 
存 器 确实 可 以 提高 性 能 。 当 它 接收 到 第 一 个 请 求 时 ， 缓 存 器 将 从 数据 存储 器 中 获取 该 项 并 保 
存 一 份 副本 ; 后 续 的 请 求 可 以 通过 使 用 缓存 器 中 的 副本 来 满足 。 因 此 ， 在 最 好 的 情况 下 。 成 
本 是 : 


Cu=C,+MN-DC， 人 
除 以 X 产 生 每 个 请 求 的 成 本 : 
Cn C12.3) 


当 N 一 %w 时 ， 前 两 项 接近 零 ， 这 意味 着 在 最 佳 情 况 下 每 个 请 求 的 成 本 变 为 C,。 我 们 可 
以 理解 为 什么 缓存 是 一 个 如 此 强大 的 工具 : 






略 开销 ， 那 么 缓存 的 最 坏 情况 的 性 能 不 会 比 缓存 器 不 存在 的 情况 差 。 在 最 好 
i 该 成 本 低 于 访问 数据 存储 器 的 


12.7 一 个 典型 请 求 序列 的 缓存 性 能 


为 了 估计 一 个 典型 的 请 求 序列 的 缓存 性 能 ， 我 们 需要 检查 缓存 如 何 处 理 包 含 命 中 和 缺失 
的 序列 。 高 速 缓存 器 设计 人 员 使 用 术语 命中 率 来 指 代 序列 中 从 高 速 缓 存 器 满足 的 请 求 的 百 分 
比 。 具 体 而 言 ， 命 中 率 定义 为 : 
命中 的 请 求 数 
i (12.4) 
命中 率 是 一 个 介 于 0 和 1 之 间 的 值 。 我 们 将 缺失 率 定 义 为 1 减 去 命中 率 。 
当然 ， 实 际 命 中 率 取决 于 具体 的 请 求 顺序 。 经 验 表明 ， 对 于 许多 高 速 缓 存 器 来 说 ， 实 践 
中 遇 到 的 请 求 的 命中 率 往 往 几乎 相同 。 在 这 种 情况 下 ， 我 们 可 以 根据 缺失 成 本 和 命中 成 本 得 
出 一 个 访问 成 本 的 等 式 : 
成 本 =r Ci+ (1-r) C， (1 
其 中 rr 是 式 (12.4 ) 中 定义 的 命中 率 。 
访问 数据 存储 器 的 成 本 是 固定 的 ， 即 为 式 (12.5 ) 中 的 C,。 因 此 ， 缓 存 器 设计 人 员 可 
以 通过 两 种 方式 提高 缓存 器 的 性 能 : 增加 命中 率 或 降低 命中 成 本 。 
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12.8 缓存 替换 策略 


缓存 器 设计 者 如 何 提高 命中 率 ?” 有 两 种 方法 : 

。 增加 缓存 器 的 容量 大 小 。 

。 提升 缓存 蔡 换 策略 。 

增加 缓存 器 的 容量 大 小 。 回 想 一 下 ,缓存 器 通常 比 大 型 数据 存储 器 小 得 多 。 当 它 开始 
时 ， 组 存 器 会 保留 每 个 响应 的 副本 。 绥 存 器 存 满 后 ， 必 须 先 从 缓存 器 中 删除 一 个 项 ， 然 后 才 
能 添加 新 项 。 较 大 的 缓存 器 可 以 存储 更 多 的 项 。 

提升 缓存 替换 策略 。 缓 存 器 使 用 替换 策略 来 决定 在 遇 到 新 项 并 且 绥 存 器 已 满 时 删除 哪个 
项 。 蔡 换 策 略 指定 是 否 忽 略 新 项 ， 或 如 何 选择 要 移出 的 项 ， 为 新 项 腾 出 空间 。 蔡 换 策 略 选择 
保留 那些 会 被 再 次 引用 的 项 ， 以 增加 命中 率 。 


12.9 最近 最 少 使 用 替换 策略 


应 该 使 用 什么 蔡 换 策略 ?需要 考虑 两 个 问题 。 首 先 ， 为 了 提高 命中 率 ， 替 换 策略 应 该 保 
留 那些 最 经 常 被 引用 的 项 。 其 次 ， 蔡 换 策略 实施 起 来 应 该 廉价 ， 特 别 是 对 于 内 存 缓存 器 。 一 
种 满足 这 两 个 标准 的 替换 策略 已 经 变 得 非常 流行 ， 称 为 最 近 最 少 使 用 (Least Recently Used， 
LRU) 替换 策略 ， 该 策略 指定 蔡 换 过 去 最 长 时 间 引 用 过 的 项 9。 


LRU 很 容易 实现 。 缓 存 机 制 保留 当前 在 缓存 器 中 的 数据 项 的 列表 。 当 某 项 被 引用 时 ， 
将 该 项 移动 到 列表 的 最 前 面 ; 当 需 要 替换 时 ， 列 表 最 后 面 的 项 将 被 移出 。 

LRU 在 许多 情况 下 运行 良好 。 在 这 组 请 求 具有 较 高 局 部 性 〈 即 ， 高 速 缓存 可 以 提高 性 
能 ) 的 情况 下 ， 一 些 项 将 被 一 次 又 一 次 地 引用 。LRU 倾向 于 将 这 些 项 保存 在 缓存 器 中 ， 这 意 
味 着 访问 成 本 保持 较 低 。 

我 们 可 以 总 结 一 下 : 





12.10 多 级 缓存 层级 结构 


缓存 中 最 令 人 意 想不到 的 方面 之 一 是 使 用 缓存 技术 来 提高 缓存 器 的 性 能 ! 为 了 理解 这 种 
优化 是 如 何 实现 的 ， 回 想 一 下 ， 插 入 一 个 缓存 器 可 以 降低 检索 项 的 成 本 ， 方 法 是 将 一 些 项 放 
在 距离 请 求 者 较 近 的 位 置 。 现 在 想象 一 下 如 图 12.3 所 示 ， 在 请 求 者 和 现 有 缓存 器 之 间 放 置 
一 个 额外 的 缓存 器 。 


较 大 的 数据 存储 器 


请 求 者 新 缓存 器 原始 缓存 器 放 


图 12.3 ”插入 额外 的 缓存 器 的 系统 组 织 结构 
第 二 个 缓存 器 可 以 提高 性 能 吗 ? 是 的 ， 只 要 访问 新 缓存 器 的 成 本 低 于 访问 原 缓存 器 的 成 


日 请 注意 ,“ 最 近 最 少 ” 总 是 指 该 项 最 后 被 引用 发 生 在 多 久之 前 ， 而 不 是 访问 的 次 数 。 
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本 〈 例 如， 新 缓存 器 更 接近 请 求 者 )。 本 质 上 ， 成 本 等 式 变 为 : 

成 本 =riCh +rCw+ (1-ri-r;) CC, (C12.6) 
其 中 x 表示 新 缓存 器 的 命中 率 ，r, 表示 原始 缓存 器 的 命中 率 ，C 表示 访问 新 缓存 器 的 成 本 ， 
Cs 表示 访问 原始 缓存 器 的 成 本 。 

当 从 请 求 者 到 数据 存储 器 的 路 径 上 使 用 多 个 缓存 器 时 ， 我 们 说 系统 实现 了 多 级 缓存 层级 
结构 。 一 组 Web 缓存 提供 了 一 个 多 层级 结构 的 例子 。 在 用 户 计算 机 上 运行 的 浏览 器 之 间 的 
路 径 可 以 穿 透 用 户 的 ISP 的 缓存 以 及 浏览 器 使 用 的 本 地 缓存 。 

重点 是 : 





12.11 ” 预 加 载 缓 存 


如 何 进一步 提高 缓存 器 性 能 ?高 速 缓存 器 设计 者 观察 到 ， 虽 然 许多 高 速 缓存 系统 在 稳定 
状态 下 运行 良好 ( 即 ， 在 系统 运行 一 段 时 间 后 ), 但 系统 在 启动 期 间 表现 出 更 高 的 成 本 。 也 
就 是 说 ， 初 始 命 中 率 非常 低 ， 因 为 缓存 必须 从 数据 存储 器 中 获取 项 。 在 某 些 情况 下 ， 可 以 通 
过 预 加 载 缓存 器 来 降低 启动 成 本 。 也 就 是 说 ， 在 开始 执行 之 前 ， 值 将 被 加 载 到 缓存 器 中 。 

当然 ， 预 加 载 仅 适用 于 缓存 可 预测 请 求 的 情况 。 例 如 ，ISP 的 Web 缓存 可 以 预先 加 载 
热 页 面 ( 即 ， 过 去 一 天 频繁 访问 的 页 面 或 所 有 者 期 望 频繁 访问 的 页 面 )。 作 为 替代 ， 一 些 绥 
存 使 用 自动 预 加 载 方法 。 在 一 种 形式 中 ， 绥 存 器 周期 性 地 将 其 内 容 的 副本 放置 在 非 易 失 性 存 
储 器 上 ， 人 多 许 在 启动 时 预 加 载 最 近 的 值 。 在 另 一 种 形式 中 ， 缓 存 器 使 用 对 预 取 相关 数据 的 引 
用 。 例 如 ， 如 果 一 个 处 理 器 访问 内 存 的 一 个 字 节 ， 缓 存 器 可 以 获取 128 个 字 节 。 因 此 ， 如 果 
处 理 器 访问 下 一 个 可 能 的 字 节 ， 该 值 将 来 自 缓存 器 。 

预 取 对 网 页 尤其 重要 。 一 个 典型 的 网 页 包含 对 多 个 图 像 的 引用 ， 并 且 在 可 以 显示 页 面 之 
前 ， 浏 览 器 必须 下 载 每 个 图 像 的 副本 并 将 副本 缓存 在 用 户 的 计算 机 上 。 在 下 载 页 面 时 ， 浏 览 
器 可 以 扫描 对 图 像 的 引用 ， 并 且 可 以 开始 预 取 每 个 图 像 而 无 须 等 待 整个 页 面 下 载 完成 。 


12.12 ”和 内 存 一 块 使 用 的 缓存 


既然 我 们 理解 了 缓存 的 基本 思想 ， 那 么 我 们 可 以 考虑 一 些 缓存 在 内 存 系统 中 的 使 用 方 
式 。 事 实 上 ， 高 速 缓存 的 概念 起 源 于 计算 机 内 存 系统 8 。 原 来 的 动机 是 低 成 本 高 速度 。 由 于 
内 存 既 昂贵 又 缓慢 ， 架 构 师 寻求 改善 性 能 的 方法 ， 而 不 需要 付出 更 高 速度 内 存 的 成 本 。 架 构 
师 发 现 ， 少 量 的 高 速 缓存 器 显著 提高 了 性 能 。 结 果 令 人 印象 深刻 ， 到 20 世纪 80 年 代 ， 大 多 
数 计算 机 系统 在 处 理 器 和 内 存 之 间 都 有 一 个 缓存 器 。 物 理 上 ， 内 存 位 于 一 块 电 路 板 上 ， 缓 存 
占用 了 一 块 单独 的 电路 板 ， 人 允许 计算 机 所 有 者 独立 升级 内 存 或 缓存 。 如 上 所 述 ， 使 用 缓存 层 
级 结构 比 使 用 单个 缓存 更 能 提高 性 能 。 因 此 ， 我 们 将 看 到 ， 现 代 计算 机 采用 了 层级 化 的 内 在 
缓存 结构 并 以 各 种 方式 使 用 缓存 。 接 下 来 的 小 节 将 举 几 个 例子 。 


日 除了 介绍 微 码 的 使 用 外 ， 莫 里 斯 " 威 尔 克 斯 在 1965 年 发 明了 内 存 缓存 的 概念 。 
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12.13 ”物理 内 存 缓存 


缓存 已 经 成 为 一 种 获得 更 高 内 存 性 能 而 不 会 显著 提高 成 本 的 流行 方式 。 早 期 的 计算 机 使 
用 物理 内 存 系统 。 也 就 是 说 ， 当 它 产 生 一 个 请 求 时 ， 处 理 器 指定 了 一 个 物理 地 址 ， 而 内 存 系 
统 响应 了 这 个 物理 地 址 。 因 此 ， 为 了 在 处 理 器 和 内 存 之 间 的 路 径 上 插入 缓存 ， 它 必须 理解 和 
使 用 物理 地 址 。 

看 起 来 物理 内 存 缓存 很 简单 。 我 们 可 以 想象 内 存 缓存 接收 到 一 个 提取 请 求 ， 检 查 是 否 可 
以 从 缓存 中 得 到 回应 ， 然 后， 如 果 该 项 在 缓存 器 中 不 存在 ， 则 将 请 求 传递 给 底层 内 存 。 此 
外 ， 我 们 可 以 想象 ， 一 旦 从 底层 内 存 中 检索 了 一 个 项 ， 缓 存 就 会 在 本 地 保存 一 个 副本 ， 然 后 
将 该 值 返回 给 处 理 器 。 

事实 上 ， 想 象 中 的 场景 是 误导 性 的 一 一 物理 内 存 缓存 比 上 面 的 描述 复杂 得 多 。 为 了 理解 
为 什么 ,我们 必须 记 住 硬件 通过 并 行 来 实现 高 速 。 例 如 ， 当 它 遇 到 提取 请 求 时 ， 内 存 缓存 并 
不 会 检查 缓存 然后 访问 物理 内 存 。 相 反 ， 缓 存 硬 件 并 行 执行 两 项 任务 : 缓存 同时 将 请 求 传递 
到 物理 内 存 并 在 本 地 搜索 答案 。 如 果 它 在 在 本 地 找到 答案 ,缓存 必须 取消 内 存 操作 。 如 果 它 
本 地 没有 找到 答案 ， 则 缓存 必须 等 待 底 层 内 存 操 作 完成 。 此 外 ， 当 答案 从 内 存 到 达 时 ， 高 速 
缓存 器 再 次 使 用 并 行 性 ， 同 时 保存 答案 的 本 地 副本 并 将 答案 传 回 给 处 理 器 。 并 行 活动 使 硬件 
变 得 复杂 。 重 点 是 : 





12.14 ” 写 直通 策略 和 写 回 策略 


除了 并 行 性 之 外 ， 内 存 高 速 缓存 也 因 写 ( 即 存 储 ) 操作 而 变 得 复杂 。 有 两 个 问题 : 性 能 
和 一 致 性 。 性 能 最 容易 理解 : 缓存 提高 了 提取 请 求 的 性 能 ， 但 不 提高 存储 请 求 的 性 能 。 也 就 
是 说 ， 写 操作 需要 更 长 的 时 间 ， 因 为 写 操作 必须 更 改 底层 内 存 中 的 值 。 更 重要 的 是 ， 除 了 向 
内 存 转 发 请 求 之 外 ， 缓 存 还 必须 检查 项 是 否 在 缓存 中 。 如 果 是 这 样 ， 缓 存 必须 更 新 其 副本 。 
实际 上 ， 经 验 表 明 ， 内 存 缓存 应 该 始终 保存 写 人 的 每 个 值 的 本 地 副本 ， 因 为 程序 在 存储 一 个 
值 后 很 短 时 间 内 会 访问 该 值 。 

内 存 缓 存 处 理 写 操作 的 初始 实现 如 上 所 述 : 缓存 保留 副本 并 将 写 操作 转发 给 底层 内 存 。 
我 们 使 用 术语 “ 写 直通 式 高 速 缓存 ”来 描述 该 方法 。 

另 一 种 替代 方案 称 为 写 回 式 高 速 缓存 ， 会 保留 写 人 的 数据 项 的 副本 ， 并 等 待 稍 后 更 新 底 
层 物 理 内 存 。 要 知道 底层 物理 内 存 是 否 必 须 更 新 ， 写 回 式 高 速 缓存 会 为 每 个 项 保留 一 个 额外 
的 位 ， 即 脏 位 。 在 物理 内 存 缓存 中 ， 脏 位 与 缓存 中 的 每 个 块 关联 。 当 提取 一 个 项 并 且 将 一 个 
副本 放置 在 缓存 中 时 ， 脏 位 初始 化 为 0。 当 处 理 器 修改 该 项 〈 即 ， 执 行 写 入) 时 ， 将 脏 位 设 
置 为 1。 当 它 需 要 从 缓存 中 移出 一 个 块 时 ， 硬 件 首先 检查 与 该 块 相关 的 脏 位 。 如 果 脏 位 为 1， 
则 将 该 块 的 副本 写 人 人 内存。 但 是 ， 如 果 脏 位 为 0， 则 可 以 简单 地 覆盖 该 块 ， 因 为 该 块 中 的 数 
据 与 内 存 中 的 副本 完全 相同 。 重 点 是 : 


2 


写 回 式 高 速 缓存 器 将 脏 位 与 每 个 块 相关 联 ， 以 记录 块 被 提取 后 是 否 被 修改 。 从 高 速 
则 会 简单 地 履 





缓存 中 弹出 一 个 决 时 ， OE 人 不 脏 
RR 
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要 理解 写 回 为 什么 会 提高 性 能 ， 可 以 想象 一 个 程序 中 的 for 循环， 该 程序 在 循环 的 每 
次 迭代 中 增加 内 存 中 的 变量 。 第 一 次 引用 变量 时 ， 写 回 式 缓存 将 变量 放 和 人 缓存 中 。 在 每 次 连 
续 的 迭代 中 ， 对 变量 的 更 改 仅 影响 缓存 的 副本 。 假 设 一 旦 循环 结束 ， 程 序 将 停止 引用 变量 。 
最 终 ， 程 序 会 生成 足够 多 的 其 他 引用 ， 以 便 该 变量 是 缓存 中 最 近 最 少 使 用 的 项 目 ， 并 且 将 被 
选中 用 于 替换 。 当 引用 新 项 并 需要 缓存 槽 时 ， 缓 存 将 变量 的 值 写 人 底层 物理 内 存 。 因 此 ， 尽 
管 变量 可 以 多 次 被 引用 或 改变 ， 但 内 存 系统 只 能 访问 一 次 底层 物理 内 存 ” 。 


12.15 ”缓存 一 致 性 


内 存 缓存 在 具有 多 个 处 理 器 的 系统 (例如 多 核 CPU) 中 尤为 复杂 。 我 们 表示 写 回 式 缓存 
比 写 直通 式 缓存 实现 更 高 的 性 能 。 在 多 处 理 器 环境 中 ， 通 过 为 每 个 内 核 配置 自己 的 缓存 ， 可 
以 优化 性 能 。 不 幸 的 是 ， 这 两 种 优化 有 冲突 。 为 了 理解 原因 ， 请 看 图 12.4 中 的 架构 ， 它 显 
示 了 两 个 处 理 器 ， 每 个 处 理 器 都 有 一 个 私有 缓存 。 





图 12.4 共享 底层 内 存 的 两 个 处 理 器 的 示意 图 。 由 于 每 个 处 理 器 都 有 单独 的 缓存 ， 所 以 如 果 两 
个 处 理 器 都 引用 相同 的 内 存 地 址 ， 则 会 发 生 冲 突 


现在 考虑 如 果 两 个 缓存 使 用 写 回 法 会 发 生 什 么 。 当 处 理 器 1 写 人 内存 位 置式 时 ， 缓 存 1 
保存 对 的 值 。 最 终 ， 当 它 需 要 空间 时 ,缓存 1 将 该 值 写 人 底层 物理 内 存 。 同 样 ， 无 论 何 时 处 
理 器 2 写 人 一 个 内 存 位 置 ， 该 值 都 将 放置 在 缓存 2 中 ， 直 到 需要 空间 为 止 。 问 题 应 该 是 显 而 
易 见 的 : 如 果 没有 额外 的 机 制 ， 如 果 两 个 处 理 器 同时 对 给 定 地 址 发 出 读 取 和 写 入 操作 ， 则 会 
发 生 错误 的 结果 。 

为 避免 冲突 ， 访 问 给 定 内 存 的 所 有 高 速 缓存 必须 遵循 协调 这 些 值 的 缓存 一 致 性 协议 。 例 
如 ， 当 处 理 器 2 从 地 址 4 读 取 时 ， 一 致 性 协议 要 求 缓存 2 通知 缓存 1。 如 果 它 当前 拥有 地 址 
4， 则 缓存 1 将 4 写 人 物理 内 存 ， 因 此 缓存 2 可 以 获取 最 新 值 。 也 就 是 说 ， 任 何 处 理 器 上 的 
读 操作 都 会 触发 缓存 中 的 写 回 ， 该 缓存 当前 拥有 地 址 的 缓存 副本 。 类 似 地 ， 如 果 任 何 处 理 器 
对 地 址 4 发 出 写 和 操作， 则 必须 通知 所 有 其 他 高 速 缓存 以 放弃 缓存 的 4 的 值 。 因 此 ， 除 了 
需要 额外 的 硬件 和 人 允许 高 速 缓存 间 进 行 通信 的 机 制 之 外 ， 缓 存 一 致 性 引入 了 额外 的 延迟 。 


12:16 上 上 1、 上 L2 和 上 3 组 存 
我 们 说 将 多 个 缓存 安排 到 一 个 层级 结构 中 可 以 提高 整体 性 能 。 事 实 上 ， 大 多 数 计算 机 内 


昌 ”优化 编译 器 可 以 进一步 提升 性 能 ， 通 过 使 用 通用 寄存 器 来 保存 变量 ， 直 到 循环 结束 ( 另 一 种 形式 的 缓存 )。 
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存 系统 至 少 有 两 级 缓存 层级 结构 。 为 了 理解 为 什么 计算 机 架构 师 为 内 存 层 级 结构 添加 了 第 二 
级 缓存 ， 我 们 必须 考虑 四 个 事实 : 

e 传统 的 内 存 缓存 与 内 存 和 处 理 器 都 是 分 离 的 。 

e 要 访问 传统 的 内 存 缓存 ， 处 理 器 使 用 将 处 理 器 芯片 连接 到 计算 机 其 余部 分 的 引 脚 。 

。 使 用 引 脚 访问 外 部 硬件 比 访问 处 理 器 芯片 内 部 的 功能 单元 花费 的 时 间 要 长 得 多 。 

e 技术 的 进步 使 得 增加 每 个 芯片 的 晶体 管 数量 成 为 可 能 ， 这 意味 着 处 理 器 忆 片 可 以 包 

含 更 多 的 硬件 。 

结论 应 该 很 清楚 。 我 们 知道 添加 第 二 个 缓存 可 以 提高 内 存 系统 的 性 能 ， 我 们 进一步 知道 
将 第 二 个 缓存 放 在 处 理 器 芯片 上 会 使 缓存 访问 时 间 更 低 ， 并 且 我 们 知道 现在 技术 允许 芯片 
供应 商 向 他 们 的 芯片 中 加 入 更 多 硬件 。 因 此 ， 在 处 理 器 芯片 中 佬 入 第 二 个 内 存 缓存 是 有 意义 
的 。 如 果 命 中 率 很 高 ， 大 多 数 数据 引用 将 永远 不 会 离开 处 理 器 芯片 一 一 访问 内 存 的 有 效 成 本 
将 与 访问 寄存 器 的 成 本 大 致 相同 。 

为 了 描述 多 个 高 速 缓存 的 想法 ， 计 算 机 制造 商 最 初 采用 了 术语 一 级 缓存 (L1 缓存 ) 来 
表示 处 理 器 芯片 上 的 高 速 缓存 ， 二 级 缓存 〈L2 缓存 ) 表示 外 部 高 速 缓存 ， 以 及 三 级 缓存 (L3 
缓存 ) 表示 内 置 到 物理 内 存 中 的 缓存 。 也 就 是 说 ，L1 缓存 最 初 是 芯片 上 的 ，L2 或 L3 缓存 
是 芯片 外 的 。 

事实 上 ， 芯 片 尺 寸 变 得 如 此 之 大 ， 以 至 于 单个 芯片 可 以 包含 多 个 核 和 多 个 缓存 。 在 这 种 
情况 下 ， 制 造 商 使 用 术语 L1 缓存 来 描述 与 一 个 特定 核 相 关联 的 缓存 ， 术 语 L2 缓存 用 于 描 
述 可 以 共享 的 片上 缓存 ， 术 语 L3 缓存 用 于 描述 片上 缓存 ， 它 由 多 个 核 共享 。 通 常 ， 所 有 核 
共享 一 个 三 级 缓存 。 因 此 ， 芯 片上 和 芯片 外 的 区 别 已 经 消失 。 

我 们 可 以 总 结 一 下 术语 : 








12.17 L1、L2 和 上 L3 缓存 的 大 小 

大 多 数 计算 机 使 用 缓存 层级 结构 。 当 然 ， 层 级 结构 顶部 的 缓存 是 最 快 的 ， 但 也 是 最 小 
的 。 图 12.5 列 出 了 缓存 内 存 大 小 的 例子 。 如 下 一 节 所 述 ，L1 缓存 可 以 分 为 独立 的 指令 和 数 
据 缓存 。 


大 小 
64KB ~ 96KB 


256KB ~ 2MB 
8MB ~ 24MB 


图 12.5 2016 年 的 缓存 大 小 示例 。 尽管 绝对 大 小 继续 变化 ， 读 者 应 该 把 重点 放 在 缓存 相对 于 
4GB 到 32GB 的 内 存 容量 的 相对 值 上 





12.18 指令 和 数据 缓存 
是 否 所 有 内 存 引 用 都 要 通过 一 个 缓存 ?为 了 理解 这 个 问题 ， 想 象 一 下 正在 执行 的 指令 和 
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被 访问 的 数据 。 取 指 操作 往往 表现 出 高 局 部 性 一 一 在 很 多 情况 下 ， 下 一 条 要 执行 的 指令 位 于 
相 邻 的 内 存 地 址 。 此 外 ， 程 序 中 最 耗 时 的 循环 通常 很 小 ， 这 意味 着 整个 循环 可 以 放 人 缓存 
中 。 尽 管 某 些 程序 中 的 数据 访问 表现 出 很 高 的 局 部 性 ,但 其 他 程序 的 数据 访问 不 会 。 例 如 ， 
当 一 个 程序 访问 一 个 散 列表 时 ， 被 引用 的 位 置 看 起 来 是 随机 的 ( 即 ， 一 次 引用 的 位 置 并 不 一 
定 接 近 下 一 个 引用 的 位 置 )。 

指令 和 数据 行为 之 间 的 差异 引发 了 一 个 问题 ， 即 混合 两 种 类 型 的 引用 会 如 何 影响 缓存 ? 
实质 上 ， 请 求 顺序 越 随机 ， 缓 存 执行 的 就 越 差 (因为 缓存 将 保存 每 个 值 ， 即 使 该 值 不 再 需 
要 )。 我们 可 以 陈述 一 个 总 原则 : 






12.19 改良 的 哈佛 体系 结构 


能 和 否 通过 配置 用 于 指令 和 数据 的 分 离 缓存 来 优化 性 能 ? 简单 的 答案 是 显而易见 的 。 当 数 
据 和 指令 都 放 在 同一 个 缓存 中 时 ， 数 据 引 用 往往 会 将 指令 从 缓存 中 挤 出 ， 从 而 降低 性 能 。 添 
加 单独 的 指令 缓存 可 以 提高 性 能 。 

然而 ， 上 面 的 简单 回答 并 不 充分 ， 因 为 问题 不 在 于 额外 的 硬件 是 否 会 有 所 帮助 ， 而 在 于 
如 何在 折 中 方案 中 进行 选择 。 因 为 额外 的 硬件 会 产生 更 多 的 热量 ， 消 耗 更 多 的 功率 ， 而 且 在 
便携 式 设备 中 ， 耗 电 更 快 ， 架 构 师 必须 权衡 额外 缓存 的 所 有 成 本 。 如 果 架 构 师 决定 添加 更 多 
缓存 硬件 ， 问 题 是 如 何 最 好 地 使 用 硬件 。 例 如 ， 我 们 知道 ， 增 加 单个 缓存 的 大 小 将 通过 避免 
冲突 来 提高 性 能 。 如 果 缓 存 变 得 足够 大 ， 混 合 指令 和 数据 引用 将 正常 工作 。 是 添加 单独 的 指 
令 缓存 ， 还 是 保留 单个 缓存 并 增加 大 小 会 更 好 ? 

许多 架构 师 已 经 决定 使 用 少量 额外 硬件 的 最 佳 方式 是 引入 一 个 新 的 I-cache (指令 缓存 ) 
并 将 现 有 缓存 用 作 D-cache (数据 缓存 )。 在 哈佛 
体系 结构 中 分 离 指 令 缓存 和 数据 缓存 是 容易 的 ， 
因为 I-cache 与 指令 内 存 相 关联 ， 并 且 D-cache 
与 数据 内 存 相 关联 。 架 构 师 应 该 放弃 冯 “' 诺 依 曼 
体系 吗 ? 

许多 架构 师 采取 了 一 种 妥协 方式 ， 其 计算 机 
具有 单独 的 指令 缓存 和 数据 缓存 ， 但 这 两 个 缓存 
指向 单个 内 存 。 我 们 使 用 术语 改良 的 哈佛 体系 


结构 来 刻画 这 种 折 中 。 图 12.6 说 明了 修改 后 的 。 ”图 12.6 一 种 改良 的 哈佛 体系 结构 ， 带 有 单 
架构 。 独 的 指令 缓存 和 数据 缓存 ， 通 向 相 


同 的 底层 内 存 
12.20 ”内存 缓 存 的 实现 


从 概念 上 讲 ， 内 存 缓存 中 的 每 个 条 目 都 包含 两 个 值 : 内存 地 址 和 在 该 地 址 找到 的 字 节 
值 。 在 实践 中 ， 每 个 条 目 存储 完整 的 地 址 效率 不 高 。 因 此 ， 内 存 缓存 使 用 巧妙 的 技术 来 减少 
所 需 的 空间 量 。 两 个 最 重要 的 缓存 优化 技术 称 为 : 

。 直接 映射 的 内 存 缓 存 。 

。 组 相 联 内 存 缓存 。 
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我 们 将 看 到 ， 与 虚拟 内 存 方案 一 样 ， 两 个 缓存 的 实现 都 使 用 2 的 宕 来 避免 算术 计算 。 


12.21 直接 映射 的 内 存 缓存 


直接 映射 的 内 存 缓 存 使 用 映射 技术 来 避免 开销 。 虽 然 内 存 缓存 与 字 节 可 寻 址 内 存 一 起 使 
用 ， 但 缓存 不 记录 单个 字 节 。 相 反 ， 高 速 缓存 将 内 存 和 高 速 缓存 分 成 一 组 固定 大 小 的 块 ， 其 
中 块 大 小 B (以 字 节 为 单位 ) 选择 为 2 的 需 。 只 要 块 中 的 一 个 字 节 被 引用 ， 硬 件 就 会 将 整个 块 
放 和 缓存 中 。 使 用 缓存 术语 ， 我 们 将 缓存 中 的 块 称 为 缓存 行 ; 直接 映射 的 内 存 缓存 的 大 小 通 
常 通过 给 出 缓存 行 的 数量 乘 以 缓存 行 的 大 小 来 指定 。 例 如 ， 大 小 可 能 被 指定 为 4K 行 ， 每 行 8 
字 节 。 为 了 设想 这 样 的 缓存 ， 将 内 存 中 的 字 节 分 成 8 字 节 的 段 并 分 配给 缓存 的 行 。 图 12.7 说 
明了 内 存 字 节 如 何 分 配 到 缓存 ， 该 缓存 具有 4 个 缓存 行 且 每 个 缓存 行 大 小 为 8 字 节 。( 注 意 : 
一 个 内 存 缓存 通常 包含 4 个 以 上 的 缓存 行 ， 一 个 较 小 的 缓存 仅仅 当 作 图 的 一 个 简单 例子 。) 


块 内 存 中 的 字 节 地 址 
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图 12.7 对 于 一 个 四 个 块 (每 块 8 字 节 ) 的 高 速 缓存 ， 块 编号 分 配给 存储 器 位 置 的 示例 


观察 内 存 中 的 块 的 编号 以 模 C 编号 ， 其 中 C 是 缓存 中 的 槽 数 。 也 就 是 说 ， 块 从 0 到 
C-1 (图 12.7 中 C 是 4) 编号 。 有 趣 的 是 ， 使 用 2 的 震 意 味 着 不 需要 算术 来 将 字 节 地 址 映 
射 到 块 号 。 相 反 ， 块 号 可 以 通过 提取 一 组 位 来 找到 。 在 图 12.7 中 ， 可 以 通过 提取 地 址 的 
第 四 位 和 第 五 位 来 计算 块 编 号 。 例 如 ， 考 虑 地 址 为 57 的 字 节 (二 进 制 为 111001， 下 划 线 
为 第 四 位 和 第 五 位 )。 位 11 是 十 进 制 的 3， 这 与 图 中 的 块 号 一 致 。 在 地 址 44 中 (二进制 为 
101100 )， 第 四 位 和 第 五 位 为 01， 块 号 为 1。 我们 可 以 用 编程 语言 表达 映射 : 

b= (byte address >> 3) & 0x03; 
就 内 存 缓存 而 言 ， 不 需要 计算 一 一 硬件 将 该 值 存放 在 内 部 寄存 器 中 ， 并 提取 相应 的 位 以 形成 
块 编号 。 

理解 直接 映射 内 存 缓 存 的 关键 在 于 以 下 规则 : 只 有 编号 为 i 的 内 存 块 才能 放 入 缓存 槽 i 
中 。 例 如 ， 具 有 地 址 16 到 23 的 块 可 以 放置 在 权 2 中 ， 具 有 地 址 48 到 55 的 块 也 可 以 放置 在 
槽 2 中 。 

如 果 多 个 内 存 块 可 以 放置 在 给 定 的 槽 口中 ， 那 么 缓存 如 何 知道 当前 哪个 块 位 于 槽 口中 ? 
高 速 缓存 为 每 个 组 内 的 C 个 块 附加 一 个 唯一 标签 。 例 如 ， 图 12.8 说 明了 如 何 将 标签 值 分 配 
给 内 存 块 ， 图 中 缓存 具有 4 个 槽 口 。 

为 了 识别 当前 在 缓存 槽 中 的 块 ， 每 个 缓存 条 目 包含 一 个 标签 值 。 因 此 ， 如 果 缓 存 中 的 覃 
0 包含 标签 上 K， 则 槽 0 中 的 值 对 应 于 具有 标签 的 内 存 区 域 中 的 块 0。 

为 什么 使 用 标签 ?缓存 必须 唯一 标识 槽 口中 的 条 目 。 由 于 标签 标识 了 大 量 的 块 而 不 是 单 
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个 字 节 的 内 存 ， 因 此 使 用 标签 需要 较 少 的 位 标识 一 块 内 存 区 域 ， 而 不 需 全 部 的 内 存 地 址 位 。 
此 外 ， 如 下 一 节 所 述 ， 选 择 块 大 小 和 内 存 标识 大 小 为 2 的 震 使 缓存 查找 效率 非常 高 。 


内 存 块 
于 一 8 字 节 一 > 
标签 3 


缓存 
标签 值 
标签 2 


OW 


标签 1 


标签 0 


忆 一 有 有 口 王 有 有 呈 一 让 山 虽 一 mw 


图 12.8 一 个 示例 内 存 缓存 ， 其 中 包含 4 个 块 的 容量 ， 内 存 按 每 块 8 字 节 大 小 的 概念 进行 划 
分 。 内 存 中 每 四 个 块 形成 一 组 ， 分 配 一 个 唯一 的 标签 


12.22 使 用 2 的 窜 提 高 效率 


尽管 上 述 的 直接 映射 看 起 来 很 复杂 ,但 使 用 2 的 寡 可 简化 硬件 实现 。 实 际 上 ， 硬 件 非常 
优雅 并 且 极 其 高 效 。 代 替 模 算术 ， 标 记 和 块 编号 可 以 通过 从 内 存 地 址 提取 组 的 位 。 地 址 的 高 
位 用 作 标 记 ， 接 下 来 的 一 组 位 形成 块 号 ， 最 后 一 组 位 指出 块 内 的 字 节 偏 移 量 。 图 12.9 说 明 
了 这 个 分 配 。 


标签 块 编号 偏 移 量 


Ni i 


图 12.9 使 用 2 的 寡 可 以 允许 缓存 将 内 存 地 址 分 割 成 三 个 单独 的 域 ， 即 标记 域 ， 块 编号 ， 块 内 
字 节 偏 移 量 域 


一 且 我 们 知道 所 有 值 都 可 以 通过 位 提取 获得 ， 那 么 直接 映射 内 存 缓存 中 的 查找 算法 就 很 
简单 。 将 缓存 看 作 一 个 数组 。 这 个 想法 是 从 地 址 中 提取 块 号 ， 然 后 使 用 块 号 作为 数组 中 的 索 
引 。 数 组 中 的 每 个 条 目 都 包含 一 个 标签 和 一 个 值 。 如 果 地 址 中 的 标签 与 缓存 槽 中 的 标签 相 匹 
配 ， 则 缓存 将 返回 该 值 。 如 果 标 签 不 匹配 ， 则 缓存 硬件 必须 从 内 存 中 获取 块 ， 将 副本 放 人 组 
存 中 ， 然 后 返回 值 。 算 法 12.1 总 结 了 这 些 步骤 。 


算法 12.1 在 直接 映射 内 存 缓存 中 的 缓存 检查 


给 定 





内 存 地 址 
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寻找 : 
该 地 址 处 的 数据 字 节 
方法 : 
通过 选择 适当 的 位 字段 ， 从 地 址 中 提取 标签 号 t、 块 号 b 和 偏 移 量 o 
检查 缓存 档 b 中 的 标签 
如 果 缓 存 梭 记 中 的 标签 和 上 匹配 { 
使 用 o 从 模 口 b 的 块 中 选择 适当 的 字 节 ， 并 返回 该 字 节 


} 否则 { 刻 更 新 缓存 */ 
从 底层 内 存 中 获取 块 b 
将 副本 放 入 模 口 b 中 
将 模 口 bp 上 的 标签 设置 为 1 
使 用 o 从 模 口 b 的 块 中 选择 适当 的 字 节 ， 并 返回 该 字 节 





该 算法 省 略 了 一 个 重要 的 细节 。 缓 存 中 的 每 个 模 口 都 有 一 个 有 效 位 ， 用 于 指定 槽 口 是 
否 已 被 使 用 。 最 初 ( 即 ， 当 计算 机 启动 时 )， 所 有 有 效 位 都 设置 为 0 (以 指示 没有 任何 模 包 含 
来 自 内 存 的 块 )。 当 它 将 一 个 块 存储 在 一 个 槽 口中 时 ， 缓 存 硬 件 将 有 效 位 设置 为 1。 当 它 检 
查 某 个 模 口 的 标签 时 ， 如 果 有 效 位 为 1 ， 则 硬件 报告 不 匹配 ， 这 将 强制 该 块 的 副本 从 内 存 中 
加 载 。 


12.23 ”直接 映射 缓存 的 硬件 实现 


算法 12.1 描述 了 缓存 检索 ， 就 好 像 缓存 是 一 个 数组 一 样 ， 并 且 采 取 单 独 的 步骤 来 提取 
项 并 索引 数组 。 实 际 上 ， 缓 存 的 槽 口 不 会 存储 在 内 存 阵列 中 。 相 反 ， 它 们 是 用 硬件 电路 来 实 
现 的 ， 电 路 并 行 工 作 。 例 如 ， 从 地 址 提取 项 的 第 一 步 可 以 通过 将 地 址 放置 在 内 部 寄存 器 〈 由 
一 组 锁 存 器 组 成 的 硬件 电路 ) 中 ， 并 将 地 址 的 每 一 位 由 一 个 锁 存 器 表示 。 也 就 是 说 ， 一 且 将 
地 址 放 和 寄存 器 中 ， 地 址 的 每 一 位 都 将 用 单独 的 线 表 示 。 地 址 中 的 项 入 和 o 可 以 仅 通过 
将 输出 线 分 组 来 获得 。 

算法 12.1 中 的 第 二 步 需要 缓存 硬件 检查 其 中 一 个 槽 。 硬 件 使 用 解码 器 来 精确 选择 其 中 
一 个 槽 。 所 有 槽 都 将 其 输出 放 在 电线 上 。 使 用 比较 器 电路 将 地 址 中 的 标签 与 所 选 槽 中 的 标签 
进行 比较 。 图 12.10 给 出 了 执行 缓存 检索 的 硬件 的 简化 框图 。 

该 电路 将 内 存 地 址 作为 输入 ,并 产生 两 个 输出 。 当 且 仅 当 在 缓存 中 找到 指定 地 址 ( 即 高 
速 缓存 返回 值 ) 时 ， 有 效 输出 为 1。 值 输出 是 指定 地 址 处 的 内 存 内 容 。 

在 图 12.10 中 ， 每 个 槽 已 被 划分 为 有 效 位 、 标 签 和 值 ， 而 且 单独 的 硬件 电路 可 用 于 每 个 
字段 。 从 解码 器 到 每 个 槽 的 水 平 线 指 示 可 用 于 激活 槽 的 电路 连接 。 然 而 ， 在 任何 时 候 ， 解 码 
器 只 选择 一 个 槽 (在 图 12.10 中 ， 所 选 槽 显示 为 灰色 ) 。 

垂直 线 穿 过 槽 口 表 示 并 行 连接 。 每 个 槽 中 的 硬件 连接 到 导线 ， 但 只 有 选 定 的 槽 会 在 垂直 
导线 上 放置 一 个 值 。 因 此 ， 在 这 个 例子 中 ， 与 门 的 输入 只 来 自 所 选 插 槽 的 V 电路 ， 比 较 器 
的 输入 只 来 自 所 选 槽 口 的 标签 电路 ， 而 输出 值 仅 来 自 所 选 横 口 的 值 电路 。 关 键 是 缓存 检索 可 
以 通过 组 合 电路 快速 执行 。 
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输入 地 址 V 标签 值 










Was | TH 一 一 一 


一 个 槽 口 


来 自 于 地 址 的 
标签 位 





仅 被 选择 的 槽 口 
会 将 值 向 下 传递 


“有 效 ” 输 出 输出 值 
图 12.10 用 于 在 内 存 缓存 中 执行 检索 的 硬件 框图 


12.24 ”组 相 联 的 内 存 缓存 


直接 映射 内 存 缓存 的 主要 替代 方 案 被 为 组 相 联 的 内 存 缓 存 。 实 质 上 ， 一 个 组 相 联 内 存 组 
存 使 用 硬件 并 行 来 提供 更 多 的 灵活 性 。 不 是 维护 单个 缓存 ， 而 是 维护 多 个 底层 缓存 ， 并 提供 
可 以 同时 搜索 所 有 缓存 的 硬件 。 更 重要 的 是 ， 因 为 它 提供 了 多 个 底层 缓存 ， 所 以 组 相 联 内 存 
缓存 可 以 存储 具有 相同 编号 的 多 个 块 。 

作为 一 个 简单 的 例子 ， 考 虑 一 个 组 相 联 缓存 ， 其 中 有 两 个 底层 硬件 的 副本 。 图 12.11 说 


明了 这 个 架构 。 
用 于 并 行 测试 的 硬件 





12.11 带 有 两 个 底层 硬件 副本 的 组 相 联 内 存 缓存 的 示意 图 ， 缓 存 包括 可 以 并 行 搜索 两 个 副 
本 的 硬件 


要 理解 组 相 联 方法 的 优点 ， 可 以 考虑 一 个 引用 字符 串 ， 其 中 一 个 程序 交替 引用 两 个 地 址 
A; 和 A:， 它 们 具有 不 同 的 标签 ， 但 都 具有 块 编 号 零 。 在 直接 映射 的 内 存 缓存 中 ， 这 两 个 地 
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址 在 缓存 中 竞争 单个 槽 口 。 对 A 的 引用 将 A 的 值 加 载 到 缓存 的 槽 0 中 ， 对 A; 的 引用 用 值 
A; 覆盖 槽 0 的 内 容 。 因 此 ， 在 交替 的 引用 顺序 中 ， 每 个 引用 都 会 导致 缓存 缺失 。 然 而 ， 在 
组 相 联 内 存 缓存 中 ，A 可 以 放置 在 两 个 底层 缓存 之 一 中 ， 而 A, 可 以 放置 在 另 一 个 底层 缓存 
中 。 因 此 ， 每 个 引用 都 会 导致 缓存 命中 。 

随 着 并 行 性 的 增加 ， 组 相 联 内 存 缓 存 的 性 能 增加 。 在 极端 情况 下， 如果 每 个 底层 缓存 仅 
包含 一 个 槽 口 ， 但 该 槽 可 以 保存 任意 值 ， 则 将 缓存 归 类 为 全 相 联 。 请 注意 ， 并 行 量 决 定 了 一 
个 连续 点 : 没有 并 行 性 ， 则 称 为 直接 映射 的 内 存 缓存 ， 具 有 完全 的 并 行 性 ， 则 我 们 将 拥有 相 
当 于 内 容 可 寻 址 存储 器 (CAM) 的 内 存 缓存 。 


12.25 ”对 程序 员 的 影响 

经 验 表明 缓存 适用 于 大 多 数 计算 机 程序 。 程 序 员 生 成 的 代码 往往 包含 循环 ， 这 意味 着 处 
理 器 会 在 转移 到 另 一 组 之 前 重复 执行 一 小 组 指令 。 类 似 地 ， 在 移动 到 新 的 数据 项 之 前 ， 程 序 
倾向 于 多 次 引用 数据 项 。 此 外 ， 一 些 编译 器 知道 缓存 ， 并 利用 缓存 帮助 优化 生成 的 代码 。 

尽管 缓存 取得 了 非常 大 的 成 功 ， 但 了 解 缓存 如 何 工作 的 程序 员 可 以 编写 利用 缓存 的 代 
码 。 例 如 ,考虑 一 个 程序 ， 它 必须 对 大 型 数组 的 每 个 元 素 执行 许多 操作 。 一 次 可 以 执行 一 个 
操作 (在 这 种 情况 下 ， 程 序 会 多 次 遍历 数组 )， 或 者 在 移动 到 下 一 个 元 素 之 前 对 数组 的 单个 
元 素 执行 所 有 操作 (在 这 种 情况 下 ,程序 遍历 数组 一 次 )。 从 缓存 的 角度 来 看 ， 后 者 是 可 取 
的 ， 因 为 元 素 将 保留 在 缓存 中 。 


12.26 ”小结 


缓存 是 一 种 基本 的 优化 技术 ， 可 用 于 许多 情况 。 缓 存 解析 请 求 ， 自 动 存 储 值 ， 并 尽 可 能 
快速 回答 请 求 。 变 体 包括 多 级 缓存 层级 结构 和 预 加 载 缓存 。 

缓存 为 内 存 提 供 了 基本 的 性 能 优化 。 大 多 数 计算 机 系统 都 采用 多 级 内 存 缓存 。 最 初 ，L1 
缓存 与 处 理 器 一 起 驻 留 在 集成 电路 中 ，L2 缓存 位 于 处 理 器 外 部 ，L3 缓存 与 内 存 相 关联 。 随 
着 集成 电路 的 规模 越 来 越 大 ， 制 造 商 将 L2 和 L3 缓存 转移 到 处 理 器 芯片 上 ， 其 区 别 在 于 L1 
缓存 与 单个 核 相关 联 ， 并 且 L2 / L3 缓存 在 多 个 核 之 间 共 享 。 

称 为 直接 映射 内 存 缓 存 的 技术 ， 处理 检索 而 不 保留 缓存 项 的 列表 。 尽 管 我 们 将 检索 算法 
视 为 执行 多 个 步 又， 但 直接 映射 内 存 缓存 的 硬件 实现 可 以 使 用 组 合 逻 辑 电 路 来 执行 查找 ， 而 
无 须 处 理 器 。 组 相 联 内 存 缓存 扩展 了 直接 映射 的 概念 以 允许 并 行 访问 。 


习题 
12.1 ” 当 应 用 于 内 存 缓存 时 ， 术 语 “ 透 明 ” 是 什么 意思 ? 
12.2 ”如 果 某 有 段 代码 的 命中 率 为 0.2， 访 问 缓存 所 需 的 时 间 为 20 纳 秒 ， 访 问 底层 物理 内 存 的 时 间 为 1 
微 秒 ， 那 么 这 段 代 码 的 有 效 内 存 访问 时 间 是 多 少 ? 
12.3 ”物理 学 家 编写 C 代码 来 遍历 一 个 大 型 的 二 维 数组 : 
float a[32768, 32768], sum; 
EE (0 i<32768; i++) { 
for (j=0; j<32768; j++) { 
sum += a[j,il; 
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物理 学 家 抱怨 代码 运行 得 非常 缓慢 。 你 可 以 做 出 什么 简单 的 改变 来 提高 执行 速度 ? 

12.4 考虑 一 台 计 算 机 ， 其 中 每 个 内 存 地 址 的 长 度 为 32 位 ， 并 且 内 存 系统 有 一 个 缓存 可 存储 高 达 4K 
条 目 。 如 果 使 用 一 个 简单 朴素 缓存 ， 其 中 缓存 的 每 个 条 目 都 存储 地 址 和 数据 字 节 ， 则 缓存 需要 
多 少 存储 空间 ?如 果 使 用 直接 映射 的 内 存 缓存 ， 其 中 每 个 条 目 存 储 由 4 字 节 组 成 的 标签 和 数据 
块 ， 则 需要 多 少 存储 空间 ? 

12.5 ”承接 前 题 。 假 设 缓存 的 大 小 是 固定 的 ， 寻 找 一 个 简单 缓存 的 替代 方案 ， 使 得 可 以 存储 更 多 数据 
项 。 提 示 : 如 果 处 理 器 总 是 访问 4 字 节 整数 ,那么 缓存 中 要 放置 什么 值 ? 

12.6 查阅 供应 商 的 规格 说 明 ， 查 找 内 存 访问 的 成 本 和 现代 内 存 系统 的 缓存 命中 成 本 ( 12.6 节 中 的 C， 
和 人 入 

12.7 使 用 上 一 题 中 获得 的 值 来 绘制 有 效 内 存 访问 成 本 ， 其 中 命中 率 从 0 变化 到 1。 

12.8 使 用 习题 12.6 中 获得 的 C 和 C。 的 值 ， 命 中 率 "需要 为 多 少 以 实现 内 存 系统 平均 访问 时 间 的 
30% 的 提高 (与 没有 缓存 的 相同 内 存 系统 相 比 ) ? 

12.9 说 明 两 种 提高 缓存 命中 率 的 方法 。 

12.10 什么 是 缓存 一 致 性 ， 什 么 类 型 的 系统 需要 它 ? 

12.11 编写 一 个 计算 机 程序 ， 使 用 64 个 块 ， 每 块 128 字 节 的 缓存 来 模拟 直接 映射 的 内 存 缓存 。 要 测 
试 该 程序 ， 请 创建 一 个 1000 x 1000 的 整数 阵列 。 如 果 程 序 以 行 优 先 级 和 列 优 先 级 顺序 遍历 数 
组 ,模拟 地 址 引用 。 每 种 情况 下 缓存 的 命中 率 是 多 少 ? 

12.12 图 12.10 中 的 硬件 图 只 显示 了 检索 所 需 的 电路 。 扩 展 该 图 以 包含 从 内 存 中 将 值 加 载 到 缓存 中 的 
电路 。 
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13.1 引言 


之 前 的 章节 讨论 了 物理 内 存 和 缓存 。 物 理 内 存 章节 包括 了 用 来 创建 内 存 系统 的 硬件 技 
术 、 将 物理 内 存 组 织 成 字 的 方式 和 用 来 访问 内 存 的 物理 寻 址 方案 。 缓 存 章节 描述 如 何 组 织 一 
个 内 存 缓 存 ， 解 释 了 为 什么 一 个 内 存 缓 存 极 大 地 提升 了 性 能 。 

本 章 介绍 了 虚拟 内 存 的 重要 概念 ， 包 括 动机 、 创 建 虚拟 内 存 空 间 的 技术 以 及 虚拟 内 存 和 
物理 内 存 间 的 映射 。 虽 然 我 们 的 注意 力主 要 集中 在 硬件 系统 ， 但 是 我 们 也 将 学 习 一 个 操作 系 
统 是 如 何 使 用 虚拟 内 存 机 制 的 。 


13.2 虚拟 内 存 的 定义 


我 们 使 用 术语 虚拟 内 存 ( VM) 来 描述 一 种 通过 隐藏 底层 物理 内 存 细节 ， 从 而 提供 更 方 
便 的 内 存 环境 的 机 制 。 本 质 上 ， 虚 拟 内 存 系统 创造 了 一 个 错觉 个 地 址 空间 和 一 个 内 存 
访问 方案 ,可 以 克服 物理 内 存 和 物理 寻 址 方案 的 限制 。 这 个 定义 可 能 有 些 模 糊 ,但 是 我 们 需 
要 包含 多 种 多 样 的 技术 和 用 途 。 下 一 市 将 会 给 出 更 精确 的 概念 ， 给 出 创建 和 实现 虚拟 内 存 系 
统 的 例子 。 我 们 将 会 学 习 多 种 多 样 的 虚拟 内 存 方案 ， 因 为 没有 单一 方案 在 所 有 情况 下 都 是 最 
优 的 。 

我 们 已 经 在 第 11 章 见 识 了 一 个 内 存 系统 的 例子 ， 它 符合 虚拟 内 存 的 定义 : 一 个 智能 的 
内 存 控制 器 ， 它 提供 按 字 节 寻 址 和 底层 按 字 寻 址 的 物理 内 存 。 控 制 器 的 实现 允许 处 理 器 使 用 
按 字 节 寻 址 的 请 求 。 我 们 进一步 认识 到 ， 选 择 内 存 大 小 是 2 的 客 可 以 避免 算术 运算 并 且 使 字 
节 寻 址 到 字 寻 址 的 转换 很 容易 。 


13.3 内存 的 管理 单元 和 地 址 空间 


架构 师 使 用 术语 内 存 管理 单元 (MMU) 来 描述 一 个 智能 的 内 存 控制 器 。MMU 为 处 理 器 
创建 一 个 虚拟 地 址 空间 。 处 理 器 使 用 的 地 址 是 虚拟 地 址 ， 因 为 MMU 把 每 个 地 址 翻译 给 底层 
物理 内 存 。 我 们 把 整个 机 制 归 类 为 虚拟 内 存 系统 ， 因 为 这 个 机 制 不 是 底层 物理 内 存 的 一 部 分 。 

非 正 式 地 ， 为 了 帮助 区 分 虚拟 内 存 和 物理 内 存 ， 工 程 师 用 “real” 这 个 形容 词 来 指 代 物 
理 内 存 ， 例 如 , 他 们 可 能 会 用 术语 实地 址 来 指 代 物 理 内 存 地 址 ， 或 使 用 术语 实地 址 空间 指 代 
物理 内 存 识别 的 地 址 集合 。 


13.4 ”多 个 物理 内 存 系 统 的 接口 


一 种 可 以 将 按 字 节 寻 址 映射 到 底层 按 字 寻 址 的 内 存 管理 单元 ， 可 以 扩展 创建 更 复杂 的 
内 存 组 织 。 比 如 ，Intel 设计 了 一 个 使 用 两 种 类 型 的 物理 内 存 的 网 络 处 理 器 一 -SRAM 和 
DRAM。 回 想 一 下 ，SRAM 比 DRAM 运行 速度 更 快 , 但 是 成 本 更 高 ， 因 此 系统 拥有 少量 
的 SRAM (为 经 常 被 访问 的 项 设计 ) 和 大 量 的 DRAM (为 不 经 常 被 访问 的 项 设计 )。 此 外 ， 
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SRAM 物理 内 存 被 组 织 为 每 字 4 字 节 ， 而 DRAM 物理 内 存 被 组 织 为 每 字 8 字 节 。Intel 的 网 
络 处 理 带 使 用 一 个 内 骨 的 RISC 处 理 器 ， 可 以 访问 这 两 种 内 存 。 更 重要 的 是 ，RISC 处 理 器 
使 用 字 节 寻 址 。 然 而 ，Intel 的 设计 遵循 了 一 种 标准 方法 ， 将 两 种 物理 内 存 并 人 一 个 单独 的 虚 
拟 地 址 空间 ， 并 没有 使 用 单独 的 指令 或 操作 类 型 来 访问 两 种 内 存 。 

为 了 在 两 个 不 同 的 物理 内 存 系统 上 实现 统一 的 虚拟 地 址 空间 ， 内 存 控制 器 必须 执行 必要 
的 转换 。 本 质 上 ，MMTU 必须 提供 一 个 隐藏 底层 内 存 系统 的 细节 的 抽象 操作 。 图 13.1 展现 了 
一 个 总 体 架构 。 

在 图 13.1 中 ， 处 理 器 连接 到 内 存 管 理 单元 。 
MMU 接收 来 自 处 理 器 的 内 存 请 求 ， 转 换 每 个 请 求 ， 
并 将 请 求 转 发 给 物理 内 存 1 的 控制 器 或 者 物理 内 存 2 
的 控制 器 。 这 两 个 物理 内 存 的 控制 器 按照 第 11 章 的 





内 存 控制 单元 (MMU ) 









请 求 转换 为 使 用 按 字 寻 址 的 操作 。 

图 13.1 中 的 硬件 如 何 提供 一 个 虚拟 内 存 空 间 ? 
答案 与 第 11 章 描 述 的 内 存 存储 体 有 关 。 从 概念 上 
讲 ，MMU 将 地 址 空间 划分 为 两 个 部 分 ，MMU 将 
这 两 个 部 分 与 物理 内 存 1 和 物理 内 存 2 相关 联 。 例 
如 ， 如 果 每 个 物理 内 存 包 含 1GB (0x40000000 字 - 

节 ) 的 RAM， 那 么 MMU 可 以 创建 一 个 虚拟 地 址 空 。 图 13.1 两 种 不 同 内 存 连接 到 处 理 器 





间 ， 该 空间 将 0 到 0x3fffffff 映射 到 第 一 个 内 存 ， 将 的 架构 图 ， 人 处理 器 可 以 使 用 
0x7fffffff 到 0x40000000 映射 到 第 二 个 内 存 。 图 13.2 任意 内 存 
展示 了 相应 的 虚拟 内 存 系 统 。 虚拟 内 存 
OxXTEfEEEEE 
13.5 地址 转换 或 者 地 址 映射 
图 13.2 中 每 个 底层 内 存 系统 的 运行 方式 都 像 一 内 存 2 
个 独立 的 物理 内 存 一 一 硬件 期 望 请 求 的 引用 地 址 从 0 Pe 处 理 器 看 到 的 
开始 。 因 此 ， 这 两 个 内 存 都 能 识别 同 组 地 址 。 对 于 OX3fffffff ee 


内 存 1， 与 内 存 相 关 的 虚拟 地 址 与 硬件 期 望 的 范围 相 
同 。 但 是 对 于 内 存 2， 处 理 器 产生 从 0x40000000 开 内 存 1 
始 的 虚拟 地 址 ， 因 此 MMU 在 把 请 求 传递 给 内 存 2 之 
前 ， 必 须 将 一 个 地 址 映射 到 较 低 的 范围 ( 即 ， 实 地 址 
从 0 到 0x3fffffff) 。 我 们 说 MMU 进行 了 地 址 转换 。 


0 
图 13.2 虚拟 内 存 系统 的 示意 图 2， 它 


从 数学 上 讲 ， 内 存 2 的 地 址 映射 很 直接 : MMU 人 
仅 从 地 址 上 减 去 0x40000000 即 可 。 图 13.3 解释 了 这 地 址 空间 。MMU 使 用 一 个 
个 概念 。 址 来 决定 要 访问 的 内 存 


日 ”我 们 选择 在 底部 标 上 0 的 地 址 空间 ; 一 些 文档 使 用 了 在 地 址 空间 顶部 放置 0 的 约定 。 
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/* 接收 来 自 于 处 理 器 的 虚拟 内 存 请 求 ; 
设 定 V 是 请 求 的 地 址 */; 
if (V < 0x40000000) { 
将 没有 修改 的 请 求 ( 地 址 为 V) 传递 给 内 存 1; 


} else { /* 将 地 址 映射 到 内 存 2 */ 
V2 = V—0x40000000; 
将 修改 后 的 请 求 ( 地 址 为 V2) 传递 给 内 存 2; 





图 13.3 ”内 存 管理 单元 用 于 创建 图 13.2 所 示 虚 拟 内 存 的 步骤 顺序 ，MMU 将 虚拟 地 址 空间 映射 
到 两 个 物理 存储 器 上 


要 点 是 : 





13.6 ”避免 算术 计算 


在 实践 中 ，MMU 不 使 用 减法 来 实现 地 址 转换 一 一 因为 减法 需要 大 量 的 硬件 资源 ( 例 

如 ALU)， 并 且 需 要 花费 太 多 的 时 间 来 执行 每 个 内 存 引 用 。 解 决 方案 是 使 用 2 的 寡 以 简化 硬 
件 。 例 如 ， 考 虑 图 13.2 中 的 映射 。 地 址 0 到 0x3fffffff 映射 到 内 存 1， 地 址 0x40000000 到 
0x7fffffff 映射 到 内 存 2。 图 13.4 显示 ， 当 用 二 进 制 表 示 时 ， 地 址 占用 31 位 ， 而 数值 只 在 高 
位 上 有 所 不 同 。 

| 地址 | = 进 制 值 91 位 ) 

0 0000000000000000000000000000000 

到 到 

Ox3 ffEFFF 人 于 

0x40000000 1000000000000000000000000000000 


到 到 
0x7 fFFFAFF Ll 


图 13.4 地 址 的 二 进 制 值 范围 为 0 到 2GB。 除 高 位 以 外 ，1GB 以 上 的 值 与 下 面 的 值 相同 


如 示例 所 示 ， 选 择 地 址 空间 大 小 为 2 的 窜 可 以 消除 减法 运算 ,因为 低 阶 位 可 以 用 作物 理 
地 址 。 在 这 个 示例 中 ， 当 将 一 个 地 址 映射 到 两 个 底层 物理 内 存 中 的 一 个 时 ,MMU 可 以 使 用 
一 个 地 址 的 高 阶 位 来 确定 应 该 接收 请 求 的 物理 内 存 。 为 了 生成 物理 地 址 ，MMU 只 提取 虚拟 
地 址 的 剩余 部 分 。 

要 点 是 : 








溃 


13.7 不 连续 的 地 址 空间 
图 13.2 展示 了 一 个 连续 虚拟 地 址 空间 ， 该 地 址 空间 中 的 所 有 地 址 都 映射 到 底层 物理 地 
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址 。 也 就 是 说 ， 处 理 器 可 以 引用 从 0 到 最 高 地 址 的 所 有 地 址 ， 因 为 每 个 地 址 都 对 应 于 物理 内 
存 中 的 一 个 位 置 。 有 趣 的 是 ， 大 多 数 计 算 机 的 设计 都 是 灵活 的 一 一 物理 内 存 的 设计 是 为 了 让 
计算 机 所 有 者 决定 要 安装 多 少 内 存 。 计 算 机 包括 内 存 的 物理 槽 口 ， 所 有 者 可 以 选择 使 用 内 存 
芯片 填充 所 有 槽 口 ， 或 者 将 一 些 槽 口 留 空 。 
考虑 一 下 允许 所 有 者 安装 任意 数量 内 存 的 后 
果 。 因 为 它 是 在 创建 计算 机 时 定义 的 ， 虚 拟 地 址 
空间 包括 每 个 可 能 的 物理 内 存 位 置 的 地 址 ( 即 ， 
地 址 为 可 安装 在 计算 机 上 的 最 大 容量 )。 如 果 一 
个 所 有 者 决定 省 略 了 一 些 内 存 ， 那 么 虚拟 地 址 空 
间 的 一 部 分 就 会 变 得 不 可 用 一 一 如 果 处 理 器 引用 
一 个 与 物理 内 存 不 对 应 的 地 址 ， 则 会 产生 一 个 错 
误 结果 。 虚 拟 地 址 空间 不 是 连续 的 ， 因 为 有 效 地 
址 的 区 域 被 无 效 的 地 址 分 隔 。 例 如 ， 如 果 将 虚拟 
地 址 空间 映射 到 两 个 物理 内 存 ， 图 13.5 显示 了 
一 个 虚拟 地 址 空间 可 能 的 呈现 ， 并 且 每 个 物理 内 





0 AAAAAMA 洞 (不 存在 ) 


存 的 一 部 分 被 忽略 了 。 图 13.5 映射 到 两 个 物理 内 存 上 的 由 N 个 
当 虚 拟 地 址 空间 的 一 部 分 没有 映射 到 物理 内 字 节 组 成 的 非 连续 虚拟 地 址 空间 的 
存 时 ， 我 们 说 地 址 空间 包含 一 个 洞 。 例 如 ， 在 示例 ， 一 些 地 址 不 对 应 于 物理 内 存 
图 13.5 中 ， 虚 拟 地 址 空间 包含 两 个 洞 9 。 
我 们 可 以 概括 为 : 






将 虚拟 地 址 空间 映射 到 物理 内 存 存 在 许多 其 他 可 能 性 。 例 如 ， 回 想 一 下 第 11 章 中 ,一 
个 地 址 的 两 个 低 阶 位 可 以 用 来 在 4 个 独立 的 物理 内 存 模块 ( 即 ， 存 储 体 ) 中 交叉 存 取 内 存 ， 
并 且 地 址 的 剩余 位 可 以 用 来 在 模块 中 选择 一 个 字 节 。 在 一 组 模块 中 交叉 存 取 字 节 的 主要 优点 
之 一 是 ， 底 层 硬 件 能 够 同时 访问 单独 的 物理 内 存 。 使 用 低 阶 位 来 选择 模块 ， 意 味 着 连续 的 内 
存 字 节 来 自 不 同 的 模块 。 特 别 是 如 果 处 理 器 访问 由 32 位 组 成 的 数据 项 ， 底 层 的 内 存 系统 可 
以 同时 获取 所 有 4 个 字 节 。 


13.8 虚拟 内 存 的 动机 


上 面 的 小 例子 表明 ， 内 存 系统 可 以 给 处 理 器 展示 一 个 虚拟 地 址 空间 ， 与 底层 物理 内 存 不 
同 。 本 章 的 其 余部 分 将 探讨 更 复杂 的 虚拟 内 存 方案 。 在 大 多 数 情 况 下 ， 方 案 合 并 和 扩展 了 上 
面 讨论 的 概念 。 我 们 将 了 解 到 使 用 复杂 虚拟 内 存 有 四 个 主要 动机 : 

。 硬件 的 同 构 化 集成 。 

。 编程 的 便利 性 。 

e 文 持 多 道 程 序 设计 。 


日” 当 我 们 讨论 VO 时 ,会 看 到 更 多 地 址 空间 的 例子 。 
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e 保护 程序 和 数据 。 

硬件 的 同 构 化 集成 。 我 们 的 示例 解释 了 虚拟 内 存 系统 如 何 为 一 组 物理 内 存 提供 一 个 同 构 
的 接口 。 更 重要 的 是 ， 该 方案 允许 潜在 底层 内 存 的 异 构 性 。 比 如 ， 一 些 底层 的 物理 内 存 可 以 
使 用 32 位 大 小 的 字 ， 而 另 一 些 则 使 用 64 位 大 小 的 字 。 有 些 内 存 有 比 其 他 内 存 更 快 的 周期 时 
间 ， 或 者 一 些 内 存 可 以 由 RAM 组 成 ， 而 男 一 些 则 由 ROM 组 成 。MMU 通过 允许 处 理 器 从 
一 个 单一 的 地 址 空间 访问 所 有 内 存 ， 从 而 隐藏 了 差异 。 

编程 的 便利 性 。 虚 拟 内 存 系统 的 主要 优点 之 一 是 易于 编程 。 如 果 单 独 的 物理 内 存 不 被 
集成 到 一 个 统一 的 地 址 空间 中 ， 处 理 器 就 需要 为 每 个 内 存 指 定 专门 的 指令 (专门 的 操作 数 格 
式 )。 编 写 内 存 访问 程序 变 得 很 痛苦 。 更 重要 的 是 ， 如 果 程 序 员 决定 将 一 个 项 从 一 个 内 存 移 
到 另 一 个 内 存 ， 程 序 必须 重 写 ， 这 意味 着 不 能 在 运行 时 做 出 决策 。 

支持 多 道 程 序 设计 。 现 代 计 算 机 系统 允许 多 个 应 用 程序 同时 运行 。 例 如 ， 一 个 编辑 文档 
的 用 户 可 以 在 一 个 字 处 理 软件 运行 的 同时 ， 临 时 启动 一 个 Web 浏览 器 查找 参考 资料 ， 并 且 
听 音 乐 。 术 语 多 道 程序 和 多 进程 描述 了 一 个 计算 机 系统 ， 它 允许 多 个 程序 同时 和 运行。 我 们 将 
看 到 需要 一 个 虚拟 内 存 系统 来 支持 多 道 程序 。 

保护 程序 和 数据 。 我 们 说 过 ，CPU 使 用 执行 模式 来 确定 在 任何 时 候 允 许 使 用 哪些 指令 。 
我 们 将 会 看 到 虚拟 内 存 与 计算 机 的 保护 机 制 有 着 天 然 内 在 的 联系 。 


13.9 多 虚拟 地 址 空间 和 多 道 程序 

早期 的 计算 机 设计 者 认为 多 道 程序 设计 是 不 切实 际 的 。 要 理解 原因 ， 请 考虑 一 下 指令 
集 是 如 何 工作 的 。 每 个 间接 寻 址 的 操作 数 引用 
了 一 个 内 存 地 址 。 当 两 个 程序 被 加 载 到 单一 内 ， 
存 中 并 同时 运行 ， 如 果 程 序 试图 使 用 相同 的 内 | ee 
存 位 置 以 实现 两 个 不 同 的 目的 ， 就 会 发 生 冲突 。 | “ 
因此 ， 只 有 当 编 写 的 程序 避免 使 用 相同 的 内 存 


3N/4 
地 址 ， 程 序 才能 一 起 运行 。 i 
最 常用 的 多 道 编程 技术 使 用 虚拟 内 存 ， 为 3 


每 个 程序 建立 一 个 单独 的 虚拟 地 址 空间 。 要 了 “ a N/2 
解 如 何 使 用 虚拟 内 存 系统 ， 请 考虑 一 个 示例 。 。 M 
图 13.6 展示 了 一 种 直接 映射 。 

图 13.6 中 的 机 制 将 物理 内 存 划分 为 面积 大 “0 pe 2 
小 相等 的 区 域 ， 称 为 分 区 。 分 区 的 内 存 系统 用 jy 
于 早期 的 大 型 机 ， 分 区 内 存 的 缺点 是 给 定 程序 虚拟 空间 6 
的 可 用 内 存 是 电脑 上 的 物理 内 存 总 量 的 一 小 部 je 


分 。 如 图 13.6 所 示 ， 使 用 分 区 内 存 的 系统 通常 
将 内 存 划 分 为 四 个 分 区 ， 这 意味 着 总 内 存 的 四 
分 之 一 专用 于 每 个 程序 。 

图 13.6 中 的 示意 图 表示 MMU 将 多 个 虚拟 
地 址 空间 转换 到 单个 物理 内 存 。 然 而 ， 在 实践 中 ，MMTU 硬件 可 以 执行 额外 的 上 映射。 例如， 
MMU 可 以 将 虚拟 地 址 空间 1 转换 为 中 间 虚 拟 地 址 空间 ， 然 后 将 中 间 虚 拟 地 址 空间 转换 为 一 
个 或 多 个 底层 物理 内 存 (这 可 能 进一步 将 字 节 地 址 转换 为 字 地 址 )。 


图 13.6 ”四 个 分 区 映射 到 单一 物理 内 存 的 示 
意图 ， 每 个 虚拟 地 址 从 地 址 0 开始 
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13.10 动态 地 创建 虚拟 地 址 空间 


如 何 创建 虚拟 内 存 系统 ? 在 上 面 的 简单 示例 中 ， 我 们 暗示 在 构建 硬件 时 选择 从 虚拟 地 址 
空间 到 物理 内 存 的 映射 。 虽 然 一 些小 型 的 专用 系统 将 映射 设计 成 硬件 ， 但 一 般 用 途 的 计算 机 
系统 通常 不 会 。 相 反 ， 通 用 系统 中 的 MMU 可 以 在 运行 时 动态 更 改 。 也 就 是 说 ， 当 系统 启动 
时 ， 处 理 器 会 告诉 MMU 如 何 将 虚拟 地 址 空间 映射 到 物理 内 存 。 

在 处 理 器 上 运行 的 程序 如 何 更 改 地址 空间 并 继续 运行 ? 一 般 来 说 ， 要 使 用 的 地 址 空间 是 
处 理 器 模式 的 一 部 分 。 处 理 器 开始 以 实 模式 运行 ， 这 意味 着 处 理 器 在 不 使 用 MMU 的 情况 下 
将 所 有 内 存 引 用 直接 传递 给 物理 内 存 。 在 实 模 式 运 行 时 ， 处 理 器 可 以 与 MMU 进行 交互 ， 以 
建立 映射 。 一 旦 指定 了 映射 ， 处理 絮 就 可 以 执行 更 改 模式 的 指令 ,使 MMU 工作 ， 分支 调转 
到 指定 的 位 置 。MMU 根据 配置 的 映射 来 转换 每 个 内 存 引用 。 

下 一 节 将 研究 用 于 创建 动态 内 存 系统 的 技术 。 我 们 将 考虑 三 个 例子 : 

。 基 址 一 界限 寄存 器 。 

。 分 段 。 

e 请 求 分 页 。 


13.11 基 址 - 界限 寄存 器 


名 为 基 址 -界限 的 机 制 是 最 古老 和 最 容易 理解 的 动态 虚拟 内 存 方案 之 一 。 从 本 质 上 说 ， 
基 址 一 界限 方案 创建 一 个 虚拟 地 址 空间 ， 并 将 该 空间 
映射 到 物理 内 存 的 一 个 区 域 。 该 名 称 指 代 的 是 属于 物理 内 存 
MMU 部 分 的 一 对 寄存 器 ; 必须 在 启用 MMU 之 前 加 N 
载 它们 。 基 址 寄存 器 保存 物理 内 存 中 的 一 个 地 址 ， 该 
地 址 指定 映射 虚拟 地 址 空间 的 位 置 ， 界 限 寄 存 器 保存 


一 个 整数 ， 指 定 地 址 空间 的 大 小 。 图 13.7 说 明了 该 种 M i 
映射 。 址 空间 
0 


13.12 ”改变 虚拟 地 址 空间 界限 at 


看 起 来 基 址 -界限 机 制 似乎 并 不 有 趣 ， 因 为 它 只 
提供 一 个 单一 的 虚拟 地 址 空间 。 然 而 ， 我 们 必须 记 住 ， 
一 个 基 址 -界限 机 制 是 动态 的 ( 即 ， 容 易 改变 )。 其 思 
想 是 ， 操 作 系 统 可 以 使 用 基 址 -界限 机 制 在 多 个 虚拟 
地 址 空间 之 间 移 动 。 例 如 ， 假 设 操 作 系统 在 内 存 中 的 
不 同位 置 加 载 了 两 个 应 用 程序 。 操 作 系 统 以 实 模式 运 
行 ， 控 制 MMU。 当 应 用 程序 A 准备 运行 时 ， 操 作 系 
统 会 配置 MMU 来 指向 A 的 内 存 部 分 ， 从 而 使 MMU 
完成 映射 ， 并 分 支 跳 转 到 该 应 用 程序 。 稍 后 ， 当 控制 
返回 到 操作 系统 时 ， 操 作 系 统 选择 另 一 个 应 用 程序 B 运行 ,配置 MMU 以 指向 B 的 内 存 ， 
使 MMU 工作 ， 并 分 支 跳 转 到 B 的 代码 。 每 个 应 用 程序 的 虚拟 地 址 空间 从 0 开始， 应 用 程 
序 仍然 不 知道 它 在 物理 内 存 中 的 位 置 。 
关键 在 于 ， 操 作 系统 可 以 使 用 基 址 - 界限 机 制 来 提供 与 前 面 所 提 到 的 静态 虚拟 内 存 机 制 


图 13.7 ”使 用 基 址 - 界限 机 制 的 虚拟 
内 存 的 示意 图 。 基 址 寄存 器 
指定 虚拟 地 址 空间 的 位 置 ， 
而 界限 寄存 器 指定 大 小 
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一 样 多 的 功能 。 我 们 可 以 总 结 为 : 





2 Et ee 人 i 


13.13 ”虚拟 内 存 和 保护 


为 什么 在 基 址 - 界限 方法 要 使 用 界限 寄存 器 ? 答案 是 保护 : 虽然 一 个 基 址 寄存 器 足以 建 
立 从 虚拟 地 址 到 物理 地 址 的 映射， 但 是 映射 并 不 能 阻止 一 个 程序 意外 地 或 者 是 恶意 地 引用 任 
意 大 的 内 存 位 置 。 例 如 ， 在 图 13.7 中 ， 超 过 M 的 地 址 位 于 分 配给 程序 的 区 域 之 外 ( 即 , 地 
址 可 能 被 分 配给 男 一 个 应 用 程序 ) 

基 址 -界限 方案 使 用 界限 寄存 器 来 保证 程序 不 会 超过 其 分 配 的 空间 。 当 然 ， 为 了 实现 保 
护 ，MMU 必须 检查 每 个 内 存 引 用 ， 如 果 程序 试图 引用 大 于 M 的 地 址 ， 则 会 引发 错误 。 由 基 
址 -界限 机 制 提供 的 保护 提供 了 一 个 重要 概念 的 示例 : 


op na ni et et 
配给 另 一 个 应 用 程序 的 内 存 。 a 剖 | 让 全 


13.14 分 段 


上 面 描述 的 内 存 映射 是 为 了 映射 一 个 完整 的 地 址 空间 ( 即 ， 用 于 运行 应 用 程序 所 需 的 所 
有 内 存 ， 包 括 已 编译 程序 和 程序 使 用 的 数据 )。 我 们 说 ， 映 射 整个 地 址 空间 的 虚拟 内 存 技术 
是 一 个 粗 粒 度 映 射 。 男 一 种 方法 包括 地 址 空间 的 部 分 映射 ， 称 为 细 粒 度 映 射 。 

为 了 理解 细 粒 度 映 射 的 动机 ， 请 考虑 一 个 典型 的 应 用 程序 。 程 序 由 一 组 函数 组 成 ， 通 过 
过 程 调用 从 一 个 函数 转移 到 另 一 个 函数 。 早 期 的 计算 机 架构 师 发 现 ， 尽 管内 存 是 一 种 稀缺 资 
源 ， 但 粗 粒度 的 虚拟 系统 需要 整个 应 用 程序 来 占用 内 存 。 大 部 分 内 存 都 没有 使 用 ， 因 为 在 任 
何 时 候 只 有 一 个 函数 在 执行 。 

为 了 减少 所 需 的 内 存 数量 ， 架 构 师 建议 将 每 个 程序 划分 为 可 变 大 小 的 块 ， 并 且 任 何 时 候 
只 将 需要 的 程序 块 加 载 到 内 存 。 也 就 是 说 ， 程 序 的 一 部 分 保存 在 一 个 外 部 存储 设备 上 ， 通 常 
是 一 个 磁盘 ， 直 到 需要 其 中 一 个 。 在 那个 时 候 ， 操 作 系 统 会 找到 一 个 足够 大 的 未 使 用 的 内 存 
区 域 ， 并 将 它 加 载 到 内 存 中 。 然 后 ， 操 作 系 统 配置 MMU ， 建 立 片 段 代 码 使 用 的 虚拟 地 址 和 
用 来 保存 该 片段 代码 的 物理 地 址 的 映射 。 当 一 个 程序 片段 不 再 使 用 时 ， 操 作 系 统 将 该 片段 代 
码 复制 回 磁盘 ， 从 而 使 内 存 可 以 用 于 男 一 片段 代码 。 

可 变 尺寸 的 片段 方案 称 为 分 段 ， 而 程序 的 片段 称 为 段 。 一 旦 提出 ,分 段 产生 了 许多 问 
题 。 需 要 什么 样 的 硬件 支持 来 提高 分 段 效 率 ? 硬件 是 否 应 该 规定 一 个 段 大 小 的 上 限 ? 

经 过 大 量 的 研究 和 一 些 硬件 实验 ， 分 段 逐 渐 消 失 。 当 一 个 操作 系统 开始 在 内 存 中 移 人 、 
移出 块 时 ， 就 会 分 段 的 中 心 问 题 出 现 了 。 因 为 段 是 可 变 大 小 的 ， 所 以 内 存 倾向 于 将 未 使 用 的 
内 存 分 割 成 多 个 小 块 的 情况 。 计 算 机 科学 家 使 用 “碎片 ”一 词 来 描述 这 种 情况 ， 并 说 内 存 变 
得 支离破碎 9。 我 们 可 以 总 结 为 : 


日 为 了 避免 内 存 碎 片 化 ， 一 些 架构 师 尝试 使 用 更 大 的 固定 大 小 段 (例如 ， 每 段 64KB)。 
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”分 段 是 指 将 程序 划分 为 可 变 大 小 块 的 诬 拟 内 存 方案 ，; 
Oe 





使 用 分 股 ， 


13.15 请求 分 页 

分 段 的 替代 方法 被 发 明 出 来 ， 它 已 经 非常 成 功 。 该 技术 称 为 “请 求 分 页 ”， 它 遵循 与 分 
段 一 样 的 通用 方案 : 将 程序 分 成 多 个 片段 ， 将 其 一 直 保 存在 外 部 存储 器 中 ， 直 到 需要 时 。 当 
引用 该 部 分 片段 时 ， 加 载 单个 片段 。 

请 求 分 页 和 分 段 之 间 最 重要 的 区 别 在 于 程序 是 如 何 划 分 的 。 请 求 分 页 使 用 的 是 被 称 为 页 
面 的 固定 大 小 的 块 ， 而 不 是 大 到 足以 容纳 一 个 完整 函数 的 可 变 大 小 段 。 初 始 时 ， 当 内 存 和 应 
用 程序 要 小 得 多 的 时 候 ， 架 构 师 选择 的 页 面 大 小 为 512 字 节 或 1KB ; 当前 的 架构 使 用 较 大 
的 页 面 大 小 (例如 ，Intel 处 理 器 使 用 4KB 大 小 的 页 面 )。 


13.16 ”请 求 分 页 的 硬件 和 软件 


一 个 有 效 的 支持 请 求 分 页 的 虚拟 内 存 系统 需要 两 种 技术 的 结合 : 

e 用 于 高 效 处 理 地 址 映射 、 每 页 被 使 用 时 记录 以 及 检测 缺失 页 的 硬件 。 

e 用 于 配置 硬件 、 监 视 页 面 使 用 和 在 外 部 存储 器 和 物理 内 存 之 间 移 动 页 面 的 软件 。 

请 求 分 页 的 硬件 。 从 技术 上 讲 ， 硬 件 架 构 提 供 了 地 址 映射 机 制 ， 并 允许 软件 处 理 需求 方 
面 。 也 就 是 说 ， 软 件 (通常 是 一 个 操作 系统 ) 配置 MMU 来 指定 从 虚拟 地 址 空间 中 的 哪些 页 
面 在 内 存 中 ， 以 及 每 个 页 面 所 在 的 位 置 。 然 后 ， 操 作 系统 运行 一 个 应 用 程序 ， 该 应 用 程序 使 
用 已 配置 的 虚拟 地 址 空间 。MMU 转换 每 个 内 存 地 址 ， 直 到 应 用 程序 引用 一 个 不 可 用 的 地 址 
( 即 ， 一 个 在 内 存 中 不 存在 的 页 面 上 的 地 址 )。 

对 缺失 页 面 的 引用 称 为 缺 页 故障 ,并 当 作 一 个 错误 情况 处 理 (例如 ， 一 个 除数 是 零 的 除 
法 )。 也 就 是 说 ,硬件 不 是 从 外 部 存储 器 中 获取 缺失 页 面 ， 而 是 仅仅 通知 操作 系统 一 个 故障 
已 经 发 生 了 ， 并 允许 操作 系统 处 理 这 个 问题 。 通 常 ， 硬 件 被 安排 来 引发 异常 。 硬 件 保存 了 计 
算 的 当前 状态 (包括 导致 故障 的 指令 的 地 址 )， 然 后 使 用 异常 处 理 向 量 。 因 此 ， 从 操作 系统 
的 角度 来 看 ， 页 面 故 障 就 像 一 个 中 断 。 一 旦 故障 被 处 理 ， 操 作 系统 就 可 以 指示 处 理 器 在 导致 
故障 的 指令 处 重新 开始 执行 。 

请 求 分 页 的 软件 。 操 作 系 统 中 的 软件 负责 管理 内 存 : 软件 必须 决定 哪些 页 面 保存 在 内 存 
中 ， 哪 些 页 面 保存 在 外 部 存储 器 中 。 更 重要 的 是 ， 软 件 会 根据 需要 获取 页 面 。 也 就 是 说 ， 一 
且 硬 件 报告 了 页 面 故障 ， 分 页 软件 就 会 接管 。 该 软件 识别 需要 的 页 面 ， 在 辅助 存储 器 上 定位 
页 面 ， 在 内 存 中 定位 一 个 槽 ， 将 页 面 读 和 内存， 并 重新 配置 MMU。 一 旦 加 载 7 页 面 ， 软 件 
就 会 继续 执行 该 应 用 程序 ， 而 取 址 - 执行 周期 将 继续 ， 直 到 出 现 另 一 个 页 面 故 障 。 

当然 ， 分 页 硬件 和 软件 必须 协同 工作 。 例 如 ， 当 出 现 页 面 故障 时 ， 硬 件 必 须 以 这 样 一 
种 方式 保存 计算 状态 ， 以 便 在 执行 恢复 时 重新 加 载 值 。 同 样 ， 软 件 必 须 完 全 理解 如 何 配置 
MMU 。 


13.17 ”页 替换 


为 了 理解 分 页 ， 我 们 必须 考虑 在 一 组 应 用 程序 运行 了 很 长 时 间 之 后 会 发 生 什 么 。 当 应 用 
程序 引用 页 面 时 ， 虚 拟 内 存 系统 将 页 面 移 动 到 内 存 中 。 最 终 ， 内 存 变 满 。 操 作 系统 知道 何 时 
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需要 页 面 ， 因 为 应 用 程序 引用 该 页 面 。 一 个 困难 的 决定 是 选择 一 个 现 有 的 页 面 移出 ， 从 而 为 
一 个 进入 的 页 面 腾 出 空间 。 在 外 部 存储 器 和 内 存 之 间 移 动 一 个 页 面 需要 时 间 ， 所 以 通过 选择 
移出 一 个 在 不 久 的 将 来 不 需要 的 页 面 来 优化 性 能 。 这 个 过 程 称 为 页 替换 。 

由 于 页 替换 是 由 软件 处 理 的 ， 所 以 对 算法 和 启发 式 的 讨论 超出 了 本 书 的 范围 。 然 而 ， 我 们 


将 会 看 到 硬件 提供 有 助 于 操作 系统 做 出 决定 的 机 制 。 


13.18 ”分 页 术语 和 数据 结构 

术语 页 是 指 程序 的 地 址 空间 的 一 块 ， 术 语 框 指 
的 是 物理 内 存 中 的 可 以 保存 一 个 页 面 的 槽 。 因 此 ， 
我 们 说 软件 将 一 个 页 面 加 载 到 内 存 的 一 个 框 中 。 当 
一 个 页 面 在 内 存 中 时 ， 我 们 说 这 个 页 面 是 驻 留 的 ， 
而 当前 内 存 中 的 来 自 一 个 地 址 空间 的 所 有 页 面 集合 
称 为 驻 留 集合 。 

请 求 分 页 的 主要 数据 结构 称 为 页 表 。 想 象 一 个 
页 表 的 最 简单 的 方法 是 想象 一 个 一 维 数组 ， 它 用 页 
码 索 引 。 也 就 是 说 ， 表 中 的 条 目 有 索引 0、1 等 等 。 
页 表 中 的 每 个 条 目 要 么 包含 一 个 空 值 (如 果 该 页 不 
是 驻 留 的 )， 要 么 包含 当前 保存 页 面 的 物理 内 存 中 
框 的 地 址 。 图 13.8 展示 了 一 个 页 表 。 


13.19 ”分 页 系统 中 的 地 址 转换 


图 13.8 中 的 条 目 对 应 的 是 框 ， 而 不 是 单个 字 。 
要 理解 分 页 硬件 ， 请 想象 一 个 地 址 空间 ， 按 图 13.9 
所 示 划 分 为 固定 大 小 的 页 面 。 

我 们 将 看 到 与 每 个 页 面相 关 的 地 址 是 重要 的 。 
如 图 13.9 所 示 ， 如 果 每 个 页 面 都 包含 K 字 节 ， 那 
么 在 第 0 页 上 的 字 节 的 地 址 范围 是 0 到 K-1， 在 第 
1 页 上 的 字 节 的 地 址 范围 是 玉 到 2K--1， 等 等 。 

从 概念 上 讲 ， 将 虚拟 地 址 和 转换 为 相应 的 物理 
地 址 已 ， 需 要 三 个 步骤 : 

1. 确定 地 址 所 在 的 页 码 。 

2. 将 页 码 作为 页 表 中 的 索引 ， 来 查找 保存 页 面 
的 内 存 中 框 的 位 置 。 

3. 确定 在 页 面 搬 的 偏 移 位 置 ， 并 根据 这 个 偏 移 
在 对 应 的 内 存 框 中 移动 。 

图 13.9 说 明了 地 址 是 如 何 与 页 面相 关联 的 。 


物理 内 存 被 分 割 成 若干 框 





图 13.8 活动 页 表 的 示意 图 ， 其 中 有 些 
条 目 指向 内 存 中 的 框 。 页 表 项 
中 的 空 指 针 (用 A 表示 ) 意味 
着 页 面 当 前 不 驻 留 在 内 存 中 





地 址 空间 
图 13.9 虚拟 地 址 空间 的 示意 图 ， 被 分 
割 为 每 页 大 小 为 天 字 节 的 页 面 


数学 上 ， 地 址 所 在 的 页 码 X 可 以 通过 除 以 每 个 页 面 的 字 节 数 天 来 计算 : 


(131) 
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类 似 地 ， 页 面 内 的 偏 移 地 址 O 可 以 计算 出 来 ， 即 为 除法 的 余数 9。 
页 内 偏 移 =O=VmodK (132 
因此 ， 通 过 使 用 页 码 和 偏 移 量 ( 即 N 和 0O0) 将 虚拟 地 址 广 转 换 为 对 应 的 物理 地 址 P 公式 
如 下 : 
物理 地 址 =P= 页 表 [NJ]+0O CT 


13.20 使 用 2 的 窜 


正如 第 11 章 所 讨论 的 那样 ， 一 个 算术 运算 (例如 除法 ) 在 每 个 内 存 引 用 上 执行 的 代价 
太 大 。 因 此 ， 与 内 存 系统 的 其 他 部 分 一 样 ， 分 页 系统 的 设计 是 为 了 避免 算术 运算 。 每 个 页 面 
的 字 节 数 选择 为 2 的 过 22?， 这 意味 着 每 个 框 中 第 一 个 字 节 的 地 址 有 gq 个 低 阶 位 等 于 0。 有趣 
的 是 ， 由 于 框 地 址 的 低 阶 位 总 是 为 零 ， 所 以 页 表 不 需要 存储 完整 的 地 址 。 使 用 2 的 寡 的 结果 
是 ， 在 数学 等 式 中 指定 的 除法 和 取 模 可 以 用 提取 位 来 代替 。 此 外 ， 加 法 操作 可 以 被 逻辑 或 蔡 
代 。 因 此 ，MMU 不 使 用 式 ( 13.1 ) 到 式 ( 13.3 )， 而 是 执行 以 下 计算 ， 将 虚拟 地 址 和 转换 为 
物理 地 址 P: 

已 = 页 表 [高 阶 位 (及 ] 或 者 低 阶 位 (四 (13.4) 

图 13.10 演示 了 MMU 硬件 如 何 执 行 虚 虚拟 地 址 
拟 地 址 映射 。 考 虑 这 张 图 片 时 ,请 记 住 硬件 [LN | 0 
可 以 并 行 地 移动 位 。 因 此 ， 从 虚拟 地 址 的 低 
阶 位 到 物理 地 址 的 低 阶 位 的 箭头 表示 一 个 并 
行 的 数据 通路 一 一 硬件 同时 发 送 所 有 位 。 此 
外 ， 从 页 表 条 目 到 物理 地 址 中 的 高 阶 位 的 箭 
头 意味 着 所 有 来 自 页 表 条 目的 位 都 可 以 并 行 
传输 。 


13.21 存在 位 、 使 用 位 和 修改 位 


我 们 对 分 页 硬件 的 描述 省 略 了 几 个 细节 。 
例如 ， 除 了 指定 页 面 所 在 的 框 的 值 之 外 ， 每 
个 页 表 条 目 都 包含 硬件 和 软件 用 来 协调 的 控 图 13.10 说 明 MMU 如 何在 分 页 系统 上 执行 地 


制 位 。 图 13.11 列 出 了 在 大 多 数 分 页 硬件 中 址 转换 。 将 页 面 大 小 设置 为 2 的 军 ， 
发 现 的 三 个 控制 位 。 消除 了 对 除法 和 余数 计算 的 需要 


要 
被 硬件 检测 ， 以 决定 页 面 当 前 是 否 驻 留 内 存 中 





当 页 面 被 引用 时 ， 被 硬件 置 位 
当 页 面 被 改变 时 ， 被 硬件 置 位 


图 13.11 每 个 页 表 条 目的 控制 位 的 例子 ， 以 及 针对 每 一 个 控制 位 硬件 采取 的 行动 。 这 些 位 旨 
在 帮助 操作 系统 中 的 页 面 蔡 换 软 件 


存在 位 。 最 简单 的 控制 位 称 为 存在 位 ， 它 指定 页 面 当前 是 否 在 内 存 中 。 存 在 位 由 软件 设 





昌 请 注意 ,计算 页 内 的 字 节 地 址 与 计算 字 内 的 字 节 地 址 相似 。 
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置 ， 并 由 硬件 测试 。 一 旦 它 加 载 了 一 个 页 面 并 填充 了 页 表 条 目 中 的 其 他 值 ， 操 作 系 统 就 会 
将 存在 位 设置 为 1 ; 当 它 从 内 存 中 移 除 一 个 页 面 时 ， 操 作 系 统 将 存在 位 设置 为 0。 当 它 转 换 
了 一 个 地 址 时 ，MMU 检查 了 页 表 条 目 中 的 存在 位 一 一 如 果 存 在 位 是 1， 那 么 转换 就 会 进行 ， 
如 果 存 在 位 是 0， 那么 硬件 声明 出 现 了 一 个 页 面 故障 。 

使 用 位 。 它 提供 页 面 蔡 换 所 需 的 信息 ， 初 始 化 为 0， 然 后 由 软件 进行 检测 。 该 位 是 由 硬 
件 设置 的 。 机 制 非常 简单 : 每 当 它 访问 一 个 页 表 条 目 时 ，MMU 将 使 用 位 设置 为 1。 操作 系 
统 会 周期 性 地 扫 过 页 表 ， 测 试 使 用 位 ， 以 确定 自 上 次 扫描 以 来 该 页 面 是 否 被 引用 。 未 被 引 
用 的 一 页 将 成 为 移 除 的 候选 页 ; 和 否则， 操作 系统 将 清除 使 用 位 ， 并 留 下 页 面 ， 等 待 下 一 次 
扫描 。 

修改 位 。 修 改 位 初始 化 之 后 供 软件 检测 。 该 位 是 由 硬件 设置 的 。 当 页 面 加 载 时 ， 分 页 
软件 设置 对 应 位 为 0。 每 当 对 一 个 页 面 进行 写 操作 时 ，MMU 就 会 设置 该 位 为 1。 因此， 如 
果 页 面 加 载 之 后 ， 写 人 其 上 的 任何 字 节 ， 那 么 修改 位 就 是 1。 在 分 页 替换 过 程 中 ， 该 值 被 使 
用 一 一 如 果 一 个 页 被 选择 移 除 ， 则 修改 位 的 值 告诉 操作 系统 ， 该 页 面 是 否 必 须 被 写 回 外 部 存 
储 器 ， 或 者 可 以 丢弃 ( 即 ， 该 页 面 是 否 与 外 部 存储 器 的 副本 相同 )。 


13.22 页 表 的 存储 


页 表 保 存在 哪里 ? 一些 系统 将 页 表 存储 在 处 理 器 外 部 的 特殊 MMU 芯片 中 。 当 然 ， 由 于 
内 存 引 用 在 处 理 过 程 中 起 着 至 关 重 要 的 作用 ， 因 此 MMU 必须 要 设计 得 工作 效率 高 。 特 别 
地 ， 为 了 确保 内 存 引用 不 会 成 为 瓶颈 ， 一 些 处 理 器 使 用 专用 的 高 速 硬件 接口 来 访问 MMU。 
该 接口 包含 并 行 连接 线 ， 可 以 让 处 理 器 和 MMU 同时 发 送 许多 位 。 

令 人 惊讶 的 是 ， 许 多 处 理 器 的 设计 是 在 内 存 中 存储 页 表 的 ! 也 就 是 说 ， 处 理 器 (或 
MMU) 包含 一 个 专门 的 寄存 器 ， 操 作 系统 使 用 它 来 指定 当前 页 表 的 位 置 。 必 须 通过 给 出 
一 个 物理 地 址 来 指定 页 表 的 位 置 。 通 常 ， 这 样 的 系统 被 设计 成 将 内 存 分 成 三 个 区 域 ， 如 

物理 内 存 


图 13.12 所 示 。 
操作 系统 页 框 存储 器 


图 13.12 一 个 将 页 表 存 储 在 内 存 的 架构 中 ， 物 理 内 存 如 何 划 分 的 示意 图 。 大 量 的 物理 内 存 是 为 
页 框 保留 的 











图 13.12 中 的 设计 说 明了 由 蜡 构 技术 组 成 的 内 存 系统 的 动机 之 一 : 由 于 频繁 使 用 页 表 ， 
用 于 存储 页 表 的 内 存 需要 高 性 能 (例如 ，SRAM)。 然 而 ， 由 于 高 性 能 内 存 昂贵 ， 使 用 低 成 
本 内 存 (例如 DRAM) 来 存储 页 框 会 降低 总 体 成 本 。 因 此 ， 架 构 师 可 以 设计 使 用 SRAM 来 
保存 页 表 而 DRAM 用 于 页 框 存储 的 系统 。 


13.23 ”分 页 效率 和 转换 后 备 缓冲 区 


所 有 虚拟 内 存 架构 的 一 个 核心 问题 是 : 系统 的 效率 如 何 ” 要 理解 这 个 问题 ， 重 要 的 是 要 
认识 到 地 址 转换 必须 在 每 个 内 存 引 用 上 执行 : 每 个 指令 的 获取 ， 每 个 操作 数 引 用 内 存 ， 以 及 
每 个 结果 的 存储 。 由 于 内 存 的 使 用 非常 频繁 ， 实 现 地 址 转换 的 机 制 必须 非常 的 高 效 ， 否 则 地 
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址 转换 将 成 为 瓶颈 。 架 构 师 主要 关心 的 是 MMU 用 于 将 虚拟 地 址 转换 为 物理 地 址 所 花 的 时 
间 ; 他 们 不 太 关心 操作 系统 配置 页 表 所 需 的 时 间 。 

一 种 用 于 优化 请 求 分 页 系统 性 能 的 技术 尤为 重要 。 该 技术 使 用 特殊 的 高 速 硬件 ， 称 为 转 
换 后 备 缓冲 区 (TLB)， 用 来 实现 更 快 的 页 表 查 找 。TLB 是 一 种 内 容 可 寻 址 存储 器 ， 它 存储 
页 表 中 最 近 使 用 过 的 值 。 当 它 首次 转换 一 个 地 址 时 ，MMU 会 在 TLB 中 放置 一 个 页 表 条 目 
的 拷贝 。 在 连续 查找 中 ,硬件 并 行 执行 两 个 操作 : 图 13.10 所 示 的 标准 地 址 转换 步骤 和 TLB 
的 高 速 搜索 。 如 果 在 TLB 中 找到 所 请 求 的 信息 ，MMU 会 中 止 标准 的 转换 并 使 用 来 自 TLB 
的 信息 。 如 果 条 目 不 在 TLB 中 ， 则 标准 的 转换 继续 进行 。 

要 理解 TLB 为 什么 能 提高 性 能 ， 请 考虑 取 指 - 执行 周期 。 处 理 器 倾向 于 从 内 存 中 连续 
的 位 置 获取 指令 。 此 外 ， 如 果 程 序 中 包含 一 个 分 支 ， 很 高 概率 目的 地 址 会 在 附近 ， 或 者 在 
同一 个 页 面 上 。 因此 ， 处 理 器 不 是 随机 访问 页 面 ， 而 是 倾向 于 从 同一 页 面 获取 连续 的 指令 。 
TLB 可 以 提高 性 能 ， 因 为 它 通过 避免 索引 到 页 表 来 优化 连续 查找 。 与 在 内 存 中 存储 页 表 的 
体系 结构 相 比 ， 性 能 差异 尤其 显著 ; 没有 TLB， 这 种 系统 运行 得 太 慢 。 我 们 可 以 总 结 一 下 : 





13.24 ”对 程序 员 的 影响 
经 验 表明 ， 对 大 多 数 计算 机 程序 员 来 说 ， 请 求 分 页 很 有 效 。 程 序 员 生 成 的 代码 往往 被 组 
织 成 适合 放 入 一 个 页 面 的 函数 。 类 似 地 ， 数 据 对 象 (例如 字符 串 ) 被 设计 成 占用 连续 的 内 存 
位 置 ， 这 意味 着 一 旦 加 载 了 一 个 页 面 ， 页 面 就 倾向 于 保持 驻 留 ， 以 服务 多 个 引用 。 最 后 ,一 
些 编译 器 理解 分 页 ， 并 通过 将 数据 项 按 页 放置 来 优化 性 能 。 
程序 员 能 够 影响 虚拟 内 存 性 能 的 一 种 方式 来 自 于 数组 访问 。 考 虑 在 内 存 中 一 个 二 维 数 
组 。 大 多 数 编程 系统 都 以 行 优 先 的 顺序 分 配 数组 ， 这 意味 着 数组 的 行 被 放置 在 连续 内 存 中 ， 
如 图 13.13 所 示 。 
行 0 行 1 行 2 行 3 行 4 行 5 行 N 
De 
图 13.13 ”以 行 优先 顺序 存储 的 二 维 数组 的 示意 图 ， 内 存 中 一 行 是 连续 的 


如 图 13.13 所 示 ， 和 矩阵 的 行 在 内 存 中 占据 连续 的 位 置 。 因 此 ， 如 果 A 是 一 个 二 维 的 字 节 

数组 ， 那 么 A[i,j] 的 位 置 是 : 
location(A)+i XQ+] 

其 中 ，Q 是 每 一 行 的 字 节 数 。 

行 优先 方案 的 主要 替代 方案 称 为 列 优先 。 当 一 个 数组 以 列 优先 存储 时 ， 列 的 元 素 占 用 连 
续 的 内 存 位 置 。 行 优先 或 列 优先 之 间 的 选择 通常 由 编程 语言 和 编译 器 决定 ， 而 不 是 由 程序 员 
决定 。 

程序 员 可 以 控制 程序 如 何 遍历 数组 ， 一 个 好 的 选择 可 以 优化 虚拟 内 存 性 能 。 例 如 ， 如 果 
一 个 大 字符 数组 A[LN,M] 按 行 优先 存储 ， 藤 套 的 循环 显示 如 下 : 


or i to NH 
forj=ltoM{ 
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A[i,j] = 0; 
} 
} 


如 果 以 相反 顺序 改变 索引 进行 循环 ， 将 需要 更 少 的 时 间 来 执行 : 


forj=1toMIt 
EF 二 和 二 这 
ATijl= 0 
} 
} 


时 间 上 的 差异 是 由 于 改变 行 索引 引起 的 内 存 引 用 将 迫使 虚拟 内 存 系统 从 内 存 的 一 页 移 到 内 存 
的 另 一 页 ， 但 改变 列 索引 意味 着 M 会 连续 地 引用 同一 页 


13.25 ”虚拟 内 存 和 缓存 间 的 关系 


虚拟 内 存 系统 中 的 两 个 关键 技术 与 缓存 有 关 : TLB 和 请 求 页 替换 。 回 想 一 下 ，TLB 包 
含 一 个 小 型 的 高 速 硬件 装置 ， 它 极 大 地 提高 了 请 求 分 页 系统 的 性 能 。 实 际 上 ，TLB 不 过 是 地 
址 映射 的 缓存 : 当 它 查找 一 个 页 表 条 目 时 ，MMU 将 条 目 存储 在 TLB 中 。 对 同一 页 面 的 连续 
查找 将 从 TLB 得 到 答案 。 

像 许多 高 速 缓存 系统 一 样 ，TLB 通常 使 用 最 近 最 少 使 用 的 替换 策略 。 从 概念 上 讲 ， 当 引 
用 一 个 条 目 时 ，TLB 将 条 目 移 到 列表 的 前 面 ; 当 一 个 新 的 引用 发 生 并 且 缓 存 已 满 时 ，TLB 会 
丢弃 列表 后 面 的 页 表 条 目 ， 以 便 为 新 条 目 腾 出 空间 。 当 然 , TLB 无 法 在 内 存 中 保存 一 个 链表 。 
相反 , TLB 包含 了 数字 电路 ， 将 值 高 速 移动 到 一 个 专门 用 途 的 内 容 可 寻 址 存储 器 (CAM) 上 。 

请 求 分 页 可 以 看 作 一 种 缓存 形式 。 缓 存 对 应 于 主 存 ， 而 数据 存储 则 对 应 于 需要 之 前 一 直 
在 外 部 存储 保存 的 页 面 。 此 外 ， 页 面 蔡 换 策略 用 作 缓 存 替换 策略 。 从 表面 上 看 ， 分 页 借用 了 
“从 缓存 中 替换 的 策略 ”这 个 短语 。 

有 趣 的 是 ， 将 请 求 分 页 看 作 缓 存 可 以 帮助 我 们 理解 一 个 重要 概念 : 虚拟 地 址 空间 如 何 比 
物理 内 存 大 得 多 。 像 缓存 一 样 ， 物 理 内 存 只 占 总 页 面 的 一 小 部 分 。 从 对 缓存 的 分 析 中 ， 我 们 
知道 请 求 分 页 虚拟 内 存 的 性 能 可 以 接近 物理 内 存 的 性 能 。 换 句 话 说 : 


前 一 章 中 对 缓存 的 分 析 显 示 ， 在 计算 机 系统 中 使 用 一 个 小 型 请 求 分 页 的 物理 内 存 ， 
执行 效果 就 像 计算 机 有 足以 容纳 整个 虚拟 地 址 空间 大 小 的 物理 内 存 一 样 好 8 


13.26 虚拟 内 存 缓存 和 缓存 刷新 


如 果 缓 存 与 虚拟 内 存 一 起 使 用 ， 那 么 缓存 应 该 放 在 处 理 器 和 MMU 之 间 ， 还 是 在 MMU 
和 物理 内 存 之 间 ? 也 就 是 说 ， 内 存 缓存 是 存储 虚拟 地 址 和 内 容 对 ， 还 是 存储 物理 地 址 和 内 容 
对 ? 答案 是 复杂 的 。 一 方面 ， 使 用 虚拟 地 址 可 以 提高 内 存 访问 速度 ， 因 为 缓存 可 以 在 MMU 
将 该 虚拟 地 址 转换 为 物理 地 址 之 前 进行 响应 。 另 方面， 使 用 虚拟 地 址 的 缓存 需要 额外 的 硬 
件 ， 人 允许 缓存 与 虚拟 内 存 系统 交互 。 要 理解 其 中 的 原因 ， 请 注意 ， 虚 拟 内 存 系统 通常 为 每 个 
正在 运行 的 应 用 程序 提供 相同 的 地 址 范围 ( 即 ， 每 个 进程 都 有 从 0 开始 的 地 址 )。 现 在 考虑 
一 下 当 操 作 系 统 执行 一 个 上 下 文 切 换 时 ( 即 停 止 运 行 一 个 进程 并 运行 男 一 个 进程 ) 会 发 生 什 
么 。 假设 在 切换 发 生 之 前 ， 内 存 缓存 包含 地 址 为 2000 的 条 目 。 如 果 在 上 下 文 切换 期 间 缓 存 
没有 变化 ， 而 新 进程 访问 位 置 2000， 则 缓存 将 返回 位 置 2000 的 旧 进 程 中 的 值 。 因 此 ， 当 它 
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从 一 个 进程 切换 到 另 一 个 进程 时 ， 操 作 系 统 也 必须 改变 缓存 中 的 项 。 

当 多 个 进程 使 用 相同 的 地 址 范围 时 ， 如 何 设 计 缓存 以 避免 出 现 歧义 的 问题 ? 架构 师 使 用 
两 个 解决 方案 : 

e 缓存 刷新 操作 。 

e 消除 二 义 性 的 标识 条 

缓存 刷新 。 一 种 确保 缓存 不 会 给 出 不 正确 的 值 的 方法 主要 是 从 缓存 中 删除 所 有 现 有 的 条 
目 。 我 们 说 缓存 被 刷新 。 在 使 用 刷新 的 架构 中 ， 操 作 系 统 必 须 在 执行 上 下 文 切换 时 刷新 组 
存 ， 以 便 从 一 个 应 用 程序 切换 到 另 一 个 应 用 程序 。 

消除 二 义 性 。 缓 存 刷 新 的 替代 方法 是 使 用 额 
外 的 位 来 标识 正在 运行 的 进程 (或 者 更 准确 地 说 ， 
地 址 空间 )。 处 理 器 包含 一 个 额外 的 硬件 寄存 器 ， 
其 中 包含 一 个 地 址 空间 ID。 许 多 操作 系统 为 每 个 
相关 的 进程 创建 一 个 地 址 空间 ， 并 使 用 进程 ID v J 
(一 个 整数 ) 来 标识 地 址 空间 。 当 它 切 换 到 应 用 程 
序 时 ， 操 作 系 统 将 应 用 程序 的 进程 ID 加 载 到 地 
址 空间 ID 寄存 器 中 。 如 图 13.14 所 示 ， 当 缓存 存 
储 一 个 项 时 ， 缓 存 预先 将 ID 寄存 器 的 内 容 放 在 图 13.14 使 用 ID 寄存 器 在 一 组 虚拟 地 址 


| 


Eee 


虚拟 地 址 中 ， 这 意味 着 即使 进程 1 和 进程 2 都 引 空间 中 消除 歧义 的 示意 图 。 每 个 
用 地 址 0， 缓 存 中 的 两 个 条 目 也 会 不 同 。 地 址 空间 都 分 配 一 个 唯一 的 编号 ， 
如 图 13.14 所 示 ， 缓 存 的 设计 目的 是 使 用 比 操作 系统 将 其 加 载 到 ID 寄存 器 中 


内 存 系统 更 长 的 地 址 。 在 将 请 求 传 递 给 缓存 之 

前 ， 处 理 器 通过 将 一 个 虚拟 地 址 连接 到 进程 ID 上 ， 创 建 一 个 人 为 的 长 地 址 ， 然 后 处 理 器 将 
较 长 的 地 址 传递 给 缓存 。 从 缓存 的 角度 来 看 ， 没 有 歧义 : 即使 两 个 应 用 程序 引用 相同 的 虚拟 
地 址 ，ID 位 也 会 区 分 这 两 个 地 址 。 


13.27 小结 


虚拟 内 存 系统 为 处 理 器 和 运行 在 处 理 器 上 的 每 个 应 用 程序 提供 一 个 抽象 的 地 址 空间 。 虚 
拟 内 存 系统 隐藏 了 底层 物理 内 存 的 细节 。 

有 几 种 虚拟 内 存 架 构 是 可 行 的 。 虚 拟 内 存 系统 可 以 隐藏 按 字 寻 址 的 细节 ， 也 可 以 提供 一 
个 统一 的 地 址 空间 ， 其 中 包含 多 个 或 许 异 构 的 内 存 技术 。 

虚拟 内 存 为 程序 员 提 供 了 方便 ， 支 持 多 道 程序 设计 和 保护 。 当 多 个 程序 同时 运行 时 ， 可 
以 使 用 虚拟 内 存 为 每 个 程序 提供 一 个 从 0 开始 的 地 址 空间 。 

虚拟 内 存 技 术 包括 基 址 -界限 、 分 段 和 请 求 分 页 ， 请 求 分 页 是 最 受 欢迎 的 。 请 求 分 页 系 
统 使 用 页 表 从 虚拟 地 址 映射 到 物理 地 址 ; 一 种 称 为 TLB 的 高 速 搜索 机 制 使 页 表 查 找 变 得 高 效 。 

为 了 避免 算术 运算 ， 虚 拟 内 存 系统 使 物理 内 存 和 页 面 大 小 为 2 的 客 。 这 样 做 允许 硬件 在 
不 使 用 算术 或 逻辑 操作 的 情况 下 转换 地 址 。 

物理 地 址 或 虚拟 地 址 都 可 以 缓存 。 如 果 缓 存 使 用 虚拟 地 址 ， 当 多 个 应 用 程序 (进程 ) 使 
用 相同 的 虚拟 地 址 范围 时 ， 就 会 出 现 二 义 性 问题 。 两 种 技术 可 以 用 来 解决 二 义 性 问题 : 当 从 
一 个 应 用 程序 切换 到 另 一 个 时 ， 操 作 系统 可 以 刷新 缓存 ; 或 者 缓存 硬件 设计 可 以 使 用 人 为 长 
地 址 ， 长 地 址 的 高 阶 位 由 地 址 空间 ID (通常 是 进程 ID ) 组 成 。 
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锚 三 部 分 闻 人 也 器 


虑 使 用 图 13.2 所 示 的 虚拟 地 址 空间 的 计算 机 。 如 果 一 个 C 程序 员 写 道 : 
char c; 
char  *p; 


p= (char *)1073741826; 

© = "ps 

将 引用 哪个 内 存 模 块 ， 以 及 在 模块 中 引用 的 字 节 位 于 内 存 中 的 哪个 位 置 ? 

传统 的 英特尔 PC 在 内 存 地 址 空间 上 有 一 个 洞 ， 位 于 640KB 到 1MB 之 间 。 以 图 13.5 为 例 ， 如 
果 PC 有 2MB 的 内 存 ， 绘 制 一 个 图 来 显示 PC 地 址 空间 中 的 洞 。 

虚拟 内 存 的 四 个 动机 中 哪 一 个 有 助 于 程序 员 ? 解释 一 下 。 

请 求 分 页 需要 专门 的 硬件 或 专门 的 软件 吗 ? 解释 一 下 。 

从 概念 上 讲 ， 页 表 是 一 个 数组 。 在 页 表 数 组 的 每 个 元 素 中 都 能 找到 什么 ， 它 是 如 何 解 释 的 ? 
考虑 存在 位 、 使 用 位 和 修改 位 。 对 于 每 一 个 位 ， 说 明 位 的 变化 以 及 是 否 是 硬件 或 软件 造成 的 变 
化 。 

假设 页 面 大 小 为 4KB， 计算 如 下 地 址 100、1500、8800 和 10 000 的 页 码 和 地 址 的 偏 移 量 。 
编写 一 个 计算 机 程序 ， 根 据 两 个 输入 值 (页 面 大 小 和 地 址 )， 计 算 页 码 和 地 址 偏 移 量 。 

扩展 上 一 题 。 如 果 页 面 大 小 为 2 的 震 ， 在 计算 答案 时 不 要 使 用 除法 或 取 模 运 算 。 

计算 保存 示例 页 表 所 需 的 内 存 数量 。 假 设 每 个 页 表 条 目 占 用 32 位 ， 页 面 大 小 为 4KB ， 内 存 地 
址 占用 32 位。 

编写 一 个 计算 机 程序 ， 该 程序 需要 输入 一 个 页 面 大 小 和 一 个 地 址 空间 大 小 ， 依 据 上 一 题 的 条 件 
计算 页 表 所 需 的 内 存 数量 。( 你 可 以 将 大 小 限制 为 2 的 震 。) 

什么 是 分 页 替换 ， 它 是 由 硬件 或 软件 执行 的 吗 ? 

考虑 一 个 两 级 的 分 页 方案 。 假 设 一 个 地 址 的 高 阶 10 位 作为 目录 表 的 索引 ， 以 选择 一 个 页 表 。 
假设 每 个 页 表 包 含 1024 个 条 目 ， 然 后 使 用 地 址 的 接 下 来 的 10 位 来 选择 一 个 页 表 条 目 。 还 假设 
地 址 的 最 后 12 位 用 于 在 页 面 上 选择 一 个 字 节 。 请 问 目录 表 和 页 表 需 要 多 少 内 存 ? 

什么 是 TLB, 为 什么 它 是 必要 的 ? 

编写 一 个 程序 ， 该 程序 引用 一 个 大 型 以 行 优先 存储 的 二 维 数组 中 的 所 有 人 位置。 比较 两 种 程序 饥 
历 所 需要 的 执行 时 间 ， 一 种 是 按 行 遍历 ， 先 选择 一 行 ， 然 后 访问 该 行内 所 有 的 列 元 素 ; 另 一 种 
是 按 列 遍历 ， 先 选择 一 列 ， 然 后 访问 该 列 中 所 有 的 行 元 素 。 解 释 结果 。 

如 果 一 个 内 存 系统 缓存 了 虚拟 地 址 ， 并 且 每 个 进程 都 有 一 个 从 0 开始 的 虚拟 地 址 空间 ， 那 么 当 
从 一 个 进程 切换 到 另 一 个 时 ， 操 作 系统 应 该 做 什么 呢 ? 为 什么 ? 
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14.1 引言 


之 前 的 章节 描述 了 计算 机 系统 中 的 两 个 主要 组 件 : 处 理 器 和 内 存 。 除 了 描述 用 于 每 个 组 
件 的 技术 之 外 ， 这 些 章节 还 说 明了 处 理 器 和 内 存 如 何 交互 。 

本 章 介绍 了 体系 结构 的 第 三 个 主要 方面 ， 即 计算 机 与 外 部 世界 之 间 的 连接 。 我 们 将 了 解 
到 ， 在 大 多 数 计算 机 上 ， 处 理 器 和 IO 设备 之 间 的 连接 使 用 了 与 处 理 器 和 内 存 之 间 的 连接 相 
同 的 基本 范式 。 此 外 ,我 们 将 看 到 ， 虽然 LO 设备 在 处 理 器 的 控制 下 运行 ， 但 它们 可 以 直接 
与 内 存 交 互 。 


14.2 输入 和 输出 设备 


最 早 的 电子 计算 机 由 数字 处 理 器 和 内 存 组 成 ， 它 更 像 一 台 计 算 器 而 不 是 现代 计算 机 。 人 
机 界面 很 粗糙 一 一 通过 一 组 手动 开关 输入 数值 ， 并 通过 一 系列 灯光 展示 计算 结果 。 到 20 世 
纪 40 年 代 后 期 ， 人 们 开始 意识 到 ， 数 字 计算 机 除了 基本 计算 之 外 ,在 它 变 得 更 有 用 之 前 ， 
需要 更 好 的 接口 。 工 程 师 们 开始 设计 将 计算 机 连接 到 外 部 设备 的 方法 ， 后 者 被 称 为 输入 / 输 
出 (IO) 设备 。 现 代 IO 设备 包括 相机 、 耳 机 和 麦克 风 ， 以 及 键盘 、 鼠 标 、 显 示 器 、 传 感 
器 、 硬 盘 、DVD 驱动 器 和 打印 机 。 





14.3 ”外 部 设备 的 控制 


连接 到 计算 机 的 最 早 的 外 部 设备 由 在 CPU 控制 下 运行 的 独立 单元 组 成 。 也 就 是 说 ， 外 
部 设备 通常 占用 一 个 单独 的 物理 机 柜 ， 具 有 独立 的 电源 ， 并 且 包 含 与 计算 机 分 离 的 内 部 电 
路 。 将 计算 机 连接 到 外 部 设备 的 一 小 组 电线 只 传送 控制 信号 〈 即 从 计算 机 中 的 数字 逻辑 到 设 
备 中 的 数字 逻辑 的 信号 )。 设 备 中 的 电路 监测 控制 信号 ， 并 相应 地 更 改 设备 。 

许多 早期 的 计算 机 提供 了 一 组 显示 数值 的 条。 通常 情况 下 ,计算 机 累加 器 中 的 每 一 位 在 
显示 中 都 对 应 一 个 指示 灯 一 一 当 该 位 设置 为 1 时 灯亮 ， 当 位 为 0 时 炸 灭 。 但 是 ， 将 灯泡 直接 
连接 到 累加 器 电路 是 不 可 能 的 ， 因 为 即使 是 小 型 灯泡 ， 也 需要 比 数字 电路 更 高 的 功率 。 因 
此 ， 显 示 单 元 包含 接收 一 组 数字 逻辑 信号 并 相应 地 控制 一 组 灯泡 的 电路 。 图 14.1 描述 了 硬 
件 是 如 何 组 织 的 。 

如 图 14.1 所 示 ， 我 们 将 外 部 设备 视 为 独立 于 处 理 器 ， 除 了 在 它们 之 间 传 输 数 字 信 号。 
当然 ， 实 际 上 ,一些 设备 与 处 理 器 驻 留 在 同一 个 机 箱 中 ， 并 且 都 从 一 个 共同 的 源 接收 电源 。 
我 们 将 忽略 这 些 细 节 并 专注 于 控制 信号 。 

计算 机 通过 两 种 方式 与 设备 交互 : 计算 机 控制 设备 ， 或 者 计算 机 与 设备 交换 数据 。 例 
如 ， 处 理 器 可 以 启动 磁盘 旋转 ， 控 制 外 部 扬声器 的 音量 ， 告 诉 相机 拍摄 照片 或 关闭 打印 机 。 
在 下 一 章 中 ,我 们 将 学 习 计 算 机 如 何 将 控制 信息 传递 给 外 部 设备 。 
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| 外 部 设备 





图 14.1 控制 一 组 指示 灯 的 外 部 电路 示例 。 该 器 件 包含 将 输入 数字 逻辑 信号 转换 为 操作 一 组 指 
示 灯 所 需 信号 的 电路 


14.4 数据 传输 


虽然 外 部 设备 的 控制 是 必 不 可 少 的 ， 但 对 于 大 多 数 设备 来 说 ， 控 制 功能 是 次 要 的 。 外 部 
设备 的 主要 功能 是 数据 传输 。 实 际 上 ， 围 绕 外 部 设备 的 大 多 数 架 构 选择 都 集中 在 允许 设备 和 
处 理 器 交换 数据 的 机 制 上 。 

我 们 将 考虑 有 关 数 据 传输 的 几 个 问题 。 首 先 ， 数 据 如 何 传达 ? 其 次 ， 哪 一 方 发 起 传输 
( 即 ， 处 理 器 还 是 设备 请 求 传输 ) ? 第 三 ， 需 要 哪些 技术 和 机 制 来 实现 高 速 传输 ? 

其 他 与 程序 员 不 太 相 关 的 问题 涉及 低层 次 的 细节 。 用 于 与 外 部 设备 通信 的 电压 是 什么 ? 
数据 如 何 表示 ? 答案 取决 于 设备 的 类 型 、 数 据 传输 的 必要 速度 、 使 用 的 线 缆 类 型 以 及 处 理 器 
和 设备 之 间 的 距离 。 但 是 ， 如 图 14.1 所 示 ， 处 
理 器 内 部 使 用 的 数字 信号 不 足以 驱动 外 部 设备 人 
中 的 电路 。 

由 于 用 于 外 部 连接 的 电压 和 编码 与 内 部 使 
用 的 电压 和 编码 不 同 ， 因 此 需要 专门 的 硬件 
来 在 两 种 表示 之 间 进 行 转换 。 我 们 使 用 术语 
接口 控制 器 来 指 代 提 供 外 部 设备 接口 的 硬件 。 
图 14.2 说 明了 在 物理 连接 的 两 端 需要 接口 控 
制 器 。 


14.5 ”品行 与 并 行 数据 传输 


计算 机 上 的 所 有 IO 接口 可 以 分 为 两 大 类 : 

。 并 行 接口 。 

e 串 行 接口 。 

并 行 接口 。 如 果 接 口 允 许 同 时 传输 多 位 数据 ， 则 将 计算 机 与 外 部 设备 之 间 的 接口 归 类 为 
并 行 接口 。 实 质 上 ， 并 行 接口 包含 许多 导线 一 一 在 任何 时 候 ， 每 条 导线 都 携带 一 个 数据 位 。 

我 们 使 用 术语 “接口 宽度 ”来 指 代 接 口 使 用 的 并 行 线 数量 。 因 此 ， 人 们 可 能 会 听 到 一 位 
工程 师 谈 论 8 位 接口 或 16 位 接口 。 我 们 将 在 下 一 章 中 详细 了 解 接口 如 何 使 用 并 行 导 线 。 

串 行 接 口 。 并 行 接口 的 替代 方案 是 在 任何 时 候 只 能 传输 一 位 数据 ; 一 次 传输 一 位 的 接口 
归 类 为 串 行 接口 。 





图 14.2 在 外 部 连接 各 端的 控制 器 硬件 的 示意 
图 。 外 部 连接 使 用 的 电压 和 信号 可 能 
与 内 部 使 用 的 不 同 
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串 行 接口 的 主要 优点 是 导线 更 少 ， 同 时 信号 传输 的 干扰 更 小 。 原 则 上 ， 串 行 数据 传输 只 
需要 两 根 导 线 根 用 于 传输 信号 ， 另 一 根 用 作 可 用 于 测量 电压 的 电气 地 线 。 串 行 接口 的 
主要 缺点 在 于 延迟 增加 : 当 发 送 多 个 位 时 ， 串 行 硬件 必须 等 到 发 送 一 位 后 再 发 送 另 一 位 。 


14.6 ” 自 同步 数据 


回想 一 下 ,数字 电路 根据 时 钟 运行 ， 时 钟 是 一 个 持续 产生 脉冲 的 信号 。 时 钟 对 于 IO 尤 
其 重要 ， 因 为 每 个 IO 设备 和 处 理 器 可 以 有 单独 的 时 钟 速率 〈 即 每 个 控制 器 可 以 有 自己 的 时 
钟 )。 因 此 ， 外 部 接口 最 重要 的 一 个 方面 涉及 接口 如 何 适应 时 钟 速率 的 差异 。 

术语 自 同 步 描述 了 一 种 机 制 ， 其 中 通过 接口 发 送 的 信号 包含 允许 接收 方 精确 确定 发 送 方 
如 何 编码 数据 的 信息 。 例 如 ， 某 些 外 部 设备 使 用 类 似 于 第 2 章 描 述 的 无 时 钟 逻辑 机 制 的 方 
法 。 其 他 外 部 设备 使 用 一 组 额外 的 导线 来 传递 时 钟 信息 : 发 送 数据 时 ， 发 送 方 使 用 额外 的 导 
线 通知 接收 方 数据 中 位 边界 的 位 置 。 


14.7 全 双 工 和 半 双 工交 互 


许多 外 部 IO 设备 提供 双向 传输 ， 这 意味 着 处 理 器 可 以 将 数据 发 送 到 设备 ， 或 者 设备 可 
以 将 数据 发 送 到 处 理 器 。 例 如 ， 磁 盘 驱 动 器 支持 读 取 和 写 入 操作 。 接 口 硬件 使 用 两 种 方法 来 
适应 双向 传输 : 

9 全 双开 交互， 

e@ 半 双 工交 互 。 

全 双 工 交互 。 人 允许 传输 在 两 个 方向 同时 进行 的 接口 称 为 全 双 工 接口 。 实 质 上 ， 全 双 工 便 
件 由 两 个 并 行 设备 构成 ， 它 们 之 间 由 两 组 独立 的 导线 互联 。 每 组 用 于 在 单一 方向 上 传输 数据 。 

半 双 工交 互 。 全 双 工 接口 的 替代 方案 称 为 半 双 工 接口 ， 只 允许 一 次 向 一 个 方向 进行 传 
输 。 也 就 是 说 ， 必 须 共享 一 组 连接 处 理 器 和 外 部 设备 的 电线 。 在 下 一 章 中 ,我 们 将 看 到 ， 共 
享 需 要 协商 一 一 在 它 可 以 执行 传输 之 前 ， 处 理 器 或 设备 必须 等 待 当前 的 传输 完成 ， 并 且 必 须 
独占 使 用 底层 线路 。 


14.8 接口 的 吞吐 率 和 延迟 


接口 的 吞吐 率 以 每 单位 时 间 可 传输 的 位 数 来 衡量 ， 通 常 以 兆 位 每 秒 (Mbps) 或 兆 字 节 
每 秒 (MBps) 来 衡量 。 看 起 来 串 行 接口 总 是 会 有 较 低 的 吞吐 率 ， 因 为 串 行 传输 一 次 只 传输 
一 位 ， 而 并 行 接口 可 以 同时 传输 多 位 。 但 是 ， 当 并 行 导 线 靠 得 很 近 时 ， 数 据 速率 必须 受到 限 
制 ， 和 否则 会 导致 电磁 干扰 。 因 此 ， 在 某 些 情 况 下 ， 工 程 师 能 够 通过 串 行 接口 ， 以 比 并 行 接口 
更 高 的 吞吐 率 发 送 位 。 

接口 的 第 二 个 主要 衡量 指标 是 延迟 。 延 迟 是 指 发 送 一 个 位 的 时 刻 和 接收 到 该 位 的 时 刻 之 
间 的 时 间 ( 即 ,传送 单个 位 需要 多 长 时 间 ),， 通常 以 纳 秒 ( ns) 为 单位 进行 测量 。 正 如 我 们 在 
内 存 中 看 到 的 那样 ， 我 们 必须 小 心 区 分 延迟 和 吞吐 率 ， 因 为 一 些 设备 需要 低 延 迟 ， 另 一 些 设 
备 需要 高 吞吐 率 。 

我 们 可 以 总 结 一 下 : 
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14.9 多 路 复 用 的 基本 思想 


选择 一 个 接口 看 起 来 可 能 是 容易 的 : 我 们 需要 全 双 工 、 低 延迟 和 高 吞吐 率 。 尽 管 需要 高 
性 能 ， 但 许多 其 他 因素 使 得 接口 的 选择 变 得 复杂 。 回 想 一 下 ， 例 如 每 个 集成 电路 都 有 固定 数 
量 的 提供 外 部 连接 的 引 脚 。 更 宽 的 接口 使 用 更 多 的 引 脚 ， 这 意味 着 其 他 功能 的 引 脚 更 少 。 提 
供 全 双 工 能 力 的 接口 使 用 的 引 脚 大 约 是 提供 半 双 工 能 力 的 接口 使 用 的 引 脚 的 两 倍 。 

大 多 数 架构 选择 了 外 部 连接 的 折 中 方案 。 该 连接 具有 有 限 的 并 行 性 ， 并 且 硬 件 使 用 称 为 
多 路 复 用 的 技术 来 发 送 数据 。 虽 然 细节 很 复杂 ， 但 多 路 复 用 的 概念 很 容易 理解 。 这 个 想法 是 
硬件 将 大 量 的 数据 传输 分 成 片段 ， 然 后 一 次 发 送 一 个 片断 。 我 们 使 用 术语 多 路 复 用 器 和 数据 
分 配器 来 描述 处 理 数 据 复 用 的 硬件 。 例 如 ， 图 14.3 说 明了 多 路 复 用 硬件 如 何 将 64 位 数据 分 
成 16 位 片断 并 通过 宽度 为 16 位 的 接口 传输 这 些 片 断 。 在 给 定 的 时 间 只 能 发 送 一 个 片断 。 

要 传送 的 64 位 宽 的 数据 





数据 在 传输 后 重新 组 合 
图 14.3 在 16 位 接口 上 传输 64 位 数据 的 示意 图 。 多 路 复 用 硬件 将 数据 分 成 16 位 宽 的 若干 单 
元 ， 并 一 次 发 送 一 个 单元 
实际 上 ， 处 理 器 和 外 部 设备 之 间 的 大 多 数 物 理 连接 使 用 多 路 复 用 。 这 样 做 可 以 让 处 理 器 
传输 任意 数量 的 数据 ， 而 无 须 将 许多 物理 引 脚 用 于 连接 。 在 下 一 章 中 ,我们 将 学 习 多 路 复 用 
如 何 提高 CPU 性 能 。 
总 结 一 下 : 











请 注意 ， 我 们 的 定义 同样 适用 于 串 行 传输 一 一 我 们 只 是 将 串 行 接口 解释 为 多 路 传输 通过 


单一 导线 传输 。 因 此 ， 串 行 接口 的 片断 大 小 是 单个 位 。 


14.10 每 个 接口 支持 多 个 设备 

本 章 中 的 示例 表明 来 自 处 理 器 的 每 个 外 部 连接 都 连接 到 一 个 设备 。 为 了 帮助 节省 引 脚 和 
外 部 连接 ， 大 多 数 处 理 器 并 不 是 每 个 外 部 连接 仅 有 一 个 设备 。 相 反 ， 一 组 引 脚 连接 到 多 个 设 
备 ， 硬 件 配置 为 允许 处 理 器 在 给 定时 间 与 其 中 一 个 设备 通信 。 下 一 章 将 详细 解释 这 个 概念 并 
给 出 例子 。 
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14.11 从 处 理 器 角度 看 MO 


回想 一 下 ， 接 口 控制 器 硬件 与 一 个 外 部 连接 相关 联 。 因 此 ， 当 处 理 器 与 外 部 设备 交互 
时 ， 处 理 器 必须 通过 控制 器 来 完成 。 处 理 器 向 控制 器 发 出 请 求 并 接收 应 答 ; 控制 器 将 每 个 请 
求 转换 为 适当 的 外 部 信号 ， 以 执行 外 部 设备 上 的 请 求 功能 。 重 点 是 处 理 紫 只 能 与 接口 控制 絮 
进行 交互 ， 而 不 能 与 外 部 设备 进行 交互 。 

为 了 匹配 架构 概念 ， 我 们 说 控制 器 为 处 理 器 提供 了 一 个 编程 接口 。 有 趣 的 是 ， 编 程 接口 
不 需要 精确 地 模拟 底层 设备 的 操作 。 在 下 一 章 中 ,我 们 将 看 到 一 个 广泛 使 用 的 编程 接口 的 例 
子 ， 它 将 所 有 外 部 交互 转换 为 简化 的 模式 。 总 结 一 下 : 


控制 器 硬件 与 设备 交互 ;控制 器 将 请 求 转换 为 适当 的 外 部 信号 。 





14.12 小 结 


计算 机 系统 与 外 部 设备 交互 以 控制 设备 (例如 ， 改 变 状态 ) 或 传输 数据 。 外 部 接口 可 以 
使 用 串 行 或 并 行 方式 ; 可 以 同时 发 送 的 位 数 称 为 并 行 接口 的 宽度 。 双 向 接口 可 以 使 用 全 双 工 
或 半 双 工交 互 。 

有 两 种 接口 性 能 测量 方法 。 延 迟 是 指 从 一 个 给 定 源 向 给 定 目 标 发 送 一 位 (例如 从 内 存 到 
打印 机 ) 所 需 的 时 间 ， 吞 吐 率 是 指 每 单位 时 间 可 发 送 的 位 数 。 

由 于 引 脚 数量 有 限 ， 处 理 器 没有 任意 宽 的 外 部 连接 。 相 反 ， 接 口 硬件 设计 用 于 在 较 少 的 
引 脚 上 复 用 大 量 数 据 传 输 。 另 外 ， 多 个 外 部 设备 可 以 连接 到 单个 外 部 连接 ; 接口 控制 器 硬件 
分 别 与 每 个 设备 进行 通信 。 


习题 

14.1 智能 手机 或 笔记 本 电脑 中 的 扬声器 实际 上 是 一 种 模拟 设备 ， 其 音量 与 所 提供 的 电压 成 正比 。 这 
是 否 意味 着 处 理 器 必须 具有 用 于 音频 的 模拟 输出 ?请 说 明 。 

14.2 与 外 部 设备 相关 的 主要 和 次 要 功能 是 什么 ? 

14.3 ”使 用 3.3 伏 数 字 信 号 工作 的 设备 能 否 连接 到 使 用 5 伏 数字 信号 工作 的 处 理 器 上 ? 请 说 明 。 

14.4 ”如 果 接 口 位 宽 为 16， 这 个 接口 是 并 行 的 还 是 串 行 的 ? 请 说 明 。 

14.5 USB 被 归 类 为 串 行 接口 。 该 分 类 意味 着 什么 ? 

14.6 ”假设 你 正在 购买 网 络 IO 设备 ， 并 且 供 应 商 允 许 你 选择 半 双 工 或 全 双 工 接口 。 你 选择 哪 一 个 ? 
为 什么 ? 

14.7 ”如 果 处 理 器 和 存储 设备 之 间 的 接口 位 宽 为 32 位， 那么 处 理 器 如 何 传送 由 64 位 组 成 的 数据 项 ? 

14.8 创建 一 个 自 同步 并 行 接 口 ， 可 以 将 数据 从 一 侧 发 送 到 另 一 侧 。 提 示 : 两 端 使 用 两 根 导线 进行 协 
调 ， 并 使 用 额外 的 导线 传输 数据 。 

14.9 假设 串 行 接口 的 延迟 为 200 微 秒 。 通 过 接口 传输 一 个 位 需要 多 长 时 间 ? 在 接口 上 传输 64 位 数据 
需要 多 长 时 间 ? 

14.10 ”假设 并 行 接口 的 宽度 为 32 位 ， 延 迟 为 200 微 秒 。 在 接口 上 传输 32 位 需要 多 长 时 间 ? 在 接口 上 
传输 64 位 数据 需要 多 长 时 间 ? 请 说 明 。 
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15.1 引言 


关于 内 存 的 章节 讨论 了 处 理 器 和 内 存 系统 之 间 的 外 部 连接 。 前 一 章 讨论 了 与 外 部 IO 
设备 的 连接 ， 并 展示 了 处 理 器 如 何 使 用 这 些 连 接 来 控制 设备 或 传输 数据 。 该 章 回 顾 了 一 些 
概念 ， 如 串 行 和 并 行 传输 ， 定 义 了 术语 ， 并 介绍 了 以 一 套数 据 线 进行 多 路 复 用 传输 数据 的 
思想 。 

本 章 通过 解释 所 有 计算 机 系统 的 一 个 基本 架构 特征 〈 即 总 线 ) 扩展 了 这 些 思 想 。 它 描述 
了 使 用 总 线 的 动机 ， 解 释 了 基本 的 操作 ， 并 展示 了 内 存 和 IO 设备 是 如 何 共享 一 个 公共 总 线 
的 。 我 们 将 了 解 总 线 定义 的 一 个 地 址 空间 ， 同时 将 理解 总 线 地 址 空间 和 内 存 地 址 空间 之 间 的 


15.2 ”总线 的 定义 


总 线 是 一 种 数据 通信 机 制 ， 它 允许 两 个 或 多 个 功能 单元 传送 控制 信号 或 数据 。 大 多 数 总 
线 都 用 于 单个 计算 机 系统 ， 有 些 用 于 单个 集成 电路 中 。 许 多 总 线 的 设计 方案 之 所 以 存在 ， 是 
因为 总 线 可 以 针对 特定 的 目的 进行 优化 。 例 如 ， 内 存 总 线 旨 在 将 处 理 器 与 内 存 系统 相连 ， 并 
且 IO 总 线 倾 向 于 将 处 理 器 与 一 系列 IO 设备 互 连 。 我 们 将 明白 通用 的 设计 方案 是 可 以 实 
现 的 。 


15.3 ”处 理 器 、1/O 设备 以 及 总 线 


总 线 的 概念 非常 广泛 ， 可 以 包含 大 多 数 外 部 连接 〈 即 处 理 器 和 协 处 理 器 之 间 的 连接 )。 
因此 ， 我 们 可 以 更 精确 地 描述 为 两 装置 通过 总 线 互 连 ， 而 不 是 把 处 理 器 和 设备 之 间 的 连接 视 
为 一 组 导线 ( 见 第 14 章 )。 图 15.1 使 用 了 常见 的 工程 图 来 说 明 这 个 概念 。 





图 15.1 用 于 连接 处 理 器 和 外 部 设备 的 总 线 示意 图 ， 总 线 用 于 大 多 数 外 部 连接 
总 结 一 下 : 


总 线 是 连接 计算 机 系 统 功能 装置 的 数据 通信 机 制 6 ee 多 个 总 线 ， 用 
于 内 存 和 外 部 1/0 设备 。 


772 务 四 部 分 “ 葵 入 而 葵 幼 


15.3.1 专用 总 线 和 标准 总 线 


如 果 总 线 的 设计 是 一 个 私有 公司 所 拥有 ， 而 其 他 公司 不 可 以 使 用 ( 即 涉及 专利 保护 )， 
那么 这 个 总 线 设计 就 是 专用 总 线 。 专 有 总 线 的 替代 者 是 标准 总 线 ， 这 意味 着 总 线 规格 可 以 获 
得 。 因 为 他 们 允许 两 个 或 两 个 以 上 的 供应 商 生 产 的 设备 进行 沟通 和 互 操 作 ， 标 准 总 线 允 许 计 
算 机 系统 包含 来 自 多 个 厂商 的 设备 。 当 然 ， 总 线 标准 必须 指定 构造 硬件 所 需 的 所 有 细节 ， 包 
括 精确 的 电气 规格 〈 例 如 电压 )、 信 和 号 的 时 序 和 对 数据 的 编码 。 此 外 ， 为 了 确保 正确 性 ， 连 
接 到 总 线 的 每 个 设备 都 必须 精确 地 实现 总 线 标 准 。 


15.3.2 ”共享 总 线 和 访问 协议 


我 们 说 总 线 可 以 将 处 理 器 连接 到 IO 设备 。 事 实 上 ， 大 多 数 总 线 都 是 共享 的 ， 这 意味 着 
使 用 单一 总 线 将 处 理 器 与 一 组 IO 设备 相连 接 。 类 似 地 ， 如 果 计 算 机 包含 多 个 处 理 器 ， 则 所 
有 处 理 器 都 可 以 连接 到 共享 总 线 。 

为 了 实现 共享 ， 架 构 师 必须 定义 一 个 在 总 线 上 使 用 的 访问 协议 。 访 问 协议 规定 一 个 与 总 
线 连接 的 设备 如 何 确 定 总 线 是 否 可 以 使 用 还 是 正在 使 用 ， 以 及 设备 如 何 轮流 使 用 总 线 。 


15.3.3 ”多 总 线 


典型 的 计算 机 系统 包含 多 个 总 线 。 例 如 ， 除 了 连接 处 理 器 、IO 设备 和 内 存 的 中 央 总 
线 ， 某 些 计算 机 有 一 个 用 于 访问 协 处 理 器 的 专用 总 线 。 为 了 方便 和 灵活 ， 计 算 机 具有 多 条 总 
线 一 一 有 多 个 标准 总 线 的 计算 机 可 以 与 更 大 范围 的 设备 进行 通信 。 

有 趣 的 是 ， 大 多 数 计算 机 也 包含 内 部 总 线 ( 即 计算 机 所 有 者 不 可 见 )。 例 如 ， 许 多 处 理 
器 在 处 理 需 芯片 上 有 一 个 或 多 个 内 部 总 线 。 芯 片上 的 电路 使 用 板 载 总 线 与 另 一 个 电路 ( 例 
如 ， 与 板 载 缓 存 ) 通信 。 


15.3.4 一 个 并 行 的、 被 动 的 机 制 


正如 第 14 章 所 描述 的 ， 可 以 将 接口 分 类 为 使 用 串 行 数据 传输 或 并 行 数据 传输 。 大 多 数 
计算 机 系统 中 使 用 的 总 线 为 并 行 结构 。 也 就 是 说 ， 总 线 能 够 同时 传输 多 位 数据 。 

最 简单 的 总 线 被 归 为 被 动 总 线 ， 因 为 总 线 本 身 不 包含 电子 元 件 。 相 反 ， 每 个 连接 到 总 线 
上 的 设备 都 包含 在 总 线 上 通信 所 需 的 电子 电路 。 因 此 ， 我 们 可 以 想象 一 个 总 线 ， 它 利用 并 行 
导线 连接 附加 的 设备 9 。 


15.4 物理 连接 


物理 上 ， 总 线 可 以 由 单个 芯片 上 用 硅 蚀刻 的 微小 导线 、 包 含 多 条 导线 的 电费 或 电路 板 上 
的 一 组 并 行 铜 导线 组 成 。 大 多 数 计算 机 使 用 IO 总 线 的 第 三 种 形式 : 总 线 是 由 在 计算 机 主 电 
路 板 上 的 一 组 并 行 导线 实现 的 ， 称 之 为 母 板 。 除 了 总 线 之 外 ， 母 板 还 包含 处 理 器 、 内 存 和 其 
他 功能 单元 。 

主板 上 连接 到 总 线 的 一 系列 插 槽 使 得 设备 可 以 容易 地 将 接线 插入 和 拔 出 〈 即 设备 只 需 通 
过 接线 插入 插 槽 ， 就 可 以 连接 到 总 线 )。 通 常 ， 总 线 和 插 模 位 于 母 板 的 边缘 附近 ， 使 它们 可 


日 在 实践 中 , 一 些 总 线 确实 包含 一 个 称 为 总 线 仲裁 器 的 数字 电路 ,该 总 线 仲裁 器 对 连接 到 总 线 的 设备 进行 协 
调 。 但 是 ,这 些 细节 超出 了 本 书 的 范围 。 
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以 较为 容易 地 连接 外 部 。 图 15.2 显示 了 母 板 上 的 总 线 和 插 槽 。 


母 板 
用 于 处 理 器 ,内 存 
功能 单元 
es 由 并 行 导线 
形成 的 总 线 


放置 在 母 板 边 


缘 附近 的 插 槽 





图 15.2 由 并 行 导线 组 成 的 总 线 示 意图 ， 它 连接 母 板 插 槽 。 母 板 包含 未 显示 的 其 他 部 件 


15.5 总 线 接口 

将 设备 连接 到 总 线 不 是 那么 容易 的 。 为 了 正确 地 操作 ， 设 备 必须 遵守 总 线 标准 。 例 如 ， 
总 线 是 共享 的 ， 并 且 指 定 访问 协议 ， 以 确定 给 定 设备 何 时 可 以 访问 总 线 以 传输 数据 。 为 了 实 
现 访问 协议 ， 每 个 设备 必须 有 一 个 数字 电路 连接 到 总 线 并 且 遵循 总 线 标准 。 作 为 总 线 接口 或 
总 线 控制 器 ， 该 电路 实现 了 总 线 访问 协议 ， 并 且 可 以 精确 控制 设备 何 时 以 及 如 何 使 用 总 线 。 
如 果 总 线 协议 较为 复杂 ， 接 口 电路 规模 可 能 很 大 ， 很 多 总 线 接口 需要 多 个 芯片 。 

总 线 接口 电路 和 总 线 本 身 之 间 的 物理 连接 是 什么 ?有趣 的 是 ， 许 多 总 线 的 插 模 使 得 印刷 
电路 板 可 以 直接 插入 。 电 路 板 必须 刻 蚀 出 一 个 与 插 槽 相同 大 小 的 区 域 ， 并 且 必 须 有 与 插 槽 中 
的 金属 触 点 准确 对 齐 的 金属 指 状 物 。 图 15.3 说 明了 这 个 概念 。 







电路 板 ( 设备 接口 ) 


主板 ( 侧 视图 ) 


图 15.3 母 板 的 侧 视图 曾 释 了 印刷 电路 板 是 如 何 插入 总 线 的 揪 模 的 。 电 路 板 上 的 金属 指 状 物 压 
向 插 槽 中 的 金属 触 点 


图 15.3 帮助 我 们 设想 一 个 计算 机 系统 实物 是 如 何 构造 的 。 如 果 母 板 位 于 机 箱 的 底部 ， 那 
么 每 个 单独 设备 的 母 板 将 是 垂直 的 ， 这 意味 着 设备 电路 板 将 是 竖 直 的 。 插 槽 的 位 置 是 物理 布 
局 的 关键 部 分 一 一 通过 在 母 板 边缘 附近 安装 插 槽 ， 设 计 者 可 以 保证 设备 板 安置 于 紧邻 机 箱 的 侧 
面 。 选 择 靠 近 侧面 的 位 置 意味 着 电路 板 与 机 箱 外 侧 的 连接 较 短 。 这 种 设计 用 于 典型 的 PC。 


15.6 控制、 地 址 和 数据 线 
尽管 总 线 的 物理 结构 是 有 趣 的 工程 挑战 ， 但 是 我 们 更 关心 它 的 逻辑 结构 。 我 们 将 审视 导 


线 的 使 用 情况 、 总 线 支 持 的 操作 以 及 对 程序 员 的 影响 等 。 
非 正 式 地 说 ， 构 成 总 线 的 导线 叫 作 信 号 线 。 从 概念 上 讲 ， 有 三 种 功能 的 信号 线 : 
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e 总 线 的 控制 信息 。 

e 地 址 信息 的 规范 。 

e 数据 的 传输 。 

为 了 帮助 理解 总 线 是 如 何 操作 的 ， 我 们 假设 总 线 包 含 三 组 独立 的 信号 线 ， 并 对 应 着 三 个 
功能 9。 图 15.4 说 明了 此 概念 。 


控制 线 地 址 线 数据 线 


图 15.4 ”概念 划分 上 ， 总 线 由 控制 线 、 地 址 线 和 数据 线 构成 


如 图 15.4 所 示 ， 总 线 的 这 些 线 不 必 在 三 种 用 途中 等 量 划分 。 特 别 是 控制 功能 通常 需要 
的 线 比 其 他 功能 更 少 。 


15.7 提取 一 保存 范式 

回顾 第 10 章 中 内 存 系统 使 用 提取 -保存 范式 ， 其 中 处 理 器 可 以 从 内 存 中 提取 ( 即 读 取 ) 
一 个 值 ， 或 者 保存 ( 即 写 入 ) 一 个 值 到 内 存 。 总 线 使 用 相同 的 基本 范式 。 也 就 是 说 ， 总 线 只 
支持 提取 和 保存 操作 。 尽 管 看 起 来 不 太 可 能 ， 但 我 们 会 了 解 到 当 处 理 器 与 设备 通信 ， 或 通过 
总 线 传输 数据 时 ， 通 信和 总 是 使 用 提取 或 保存 操作 。 有 趣 的 是 ， 提 取 -保存 范式 适用 于 所 有 设 
备 ， 包 括 麦 克 风 、 摄 像 机 、 传 感 器 和 显示 器 ， 以 及 存储 设备 (如 磁盘 )。 

我 们 之 后 将 了 解 使 用 提取 - 保存 范式 控制 所 有 设备 是 可 行 的 。 目 前 ， 理 解 以 下 内 容 就 已 
足够 : 


如 同一 个 内 存 系统 ， 直线 采用 提取 ed et Nes 
通过 提取 或 保存 来 完成 






输 的 操作 都 





15.8 提取 - 保存 和 总 线 宽度 


要 知道 总 线 使 用 提取 - 保存 范式 是 用 于 帮助 我 们 理解 图 15.4 中 所 阐述 的 概念 上 的 三 种 
信号 线 。 所 有 的 这 三 种 线 都 用 于 提取 或 保存 操作 。 控 制 线 用 于 确保 任何 时 间 只 有 一 对 实体 尝 
试 通过 总 线 进行 通信 ， 并 且 使 这 两 个 通信 实体 有 意义 地 交互 。 地 址 线 用 于 传送 地 址 ， 数 据 线 
用 于 传输 数据 的 值 。 

图 15.5 解释 了 在 一 次 提取 或 者 保存 操作 过 程 中 这 三 种 类 型 的 线 是 如 何 使 用 的 。 图 中 列 
出 每 个 操作 过 程 中 所 采取 的 步 又， 并 指出 了 每 个 操作 中 使 用 了 哪 一 组 线 。 

我 们 称 大 部 分 总 线 采用 并 行 传输 的 方式 一 一 总 线 包含 多 条 数据 线 ， 可 以 同时 在 每 个 数据 
线 上 各 传输 一 位 。 所 以 ， 如 果 总 线 包含 K 个 数据 线 ， 总 线 一 次 可 以 传输 K 位 。 使 用 第 14 章 
的 术语 ,我 们 说 总 线 的 宽度 是 K 人 位。 因此， 拥有 32 条 数据 线 的 总 线 ( 即 同时 传输 32 位 ) 称 
为 32 位 总 线 。 


日 这 里 的 描述 简化 了 细节 ; 后 面 的 部 分 将 讲述 如 何在 没有 独立 的 物理 线路 的 情况 下 实现 这 些 功能 。 


委 15 复 闪 线 及 总 线 奕 欧 ” 175 


1. 使 用 控制 线 获取 对 总 线 的 访问 。 

2. 将 一 个 地 址 放 在 地 址 线 上 。 

3. 使 用 控制 线 发 出 一 个 提取 操作 请 求 。 
4. 测试 控制 线 以 等 待 操作 的 完成 。 

5. 从 数据 线 上 读 取 数值 。 

6. 设置 控制 线 允 许 另 一 设备 使 用 总 线 。 


1. 使 用 控制 线 获 取 对 总 线 的 访问 。 

2. 将 一 个 地 址 放 在 地 址 线 上 。 

3. 将 一 个 值 放 在 数据 线 上 。 

4. 使 用 控制 线 发 出 一 个 保存 操作 请 求 。 
5. 测试 控制 线 以 等 待 操作 的 完成 。 

6. 设置 控制 线 允 许 男 一 设备 使 用 总 线 。 





图 15.5 在 总 线 上 执行 提取 或 保存 操作 所 采取 的 步骤 ， 以 及 在 每 个 步骤 中 使 用 的 一 组 信号 线 


当然 ， 某 些 总 线 是 串 行 而 不 是 并 行 的 。 串 行 总 线 一 次 仅 能 传输 一 位 。 技 术 上 讲 ， 串 行 
总 线 只 有 一 位 的 宽度 。 但 是 ,工程师 通常 并 不 称 其 为 一 位 宽度 的 总 线 ， 他 们 简称 其 为 串 行 
总 线 。 


15.9 多 路 复 用 


总 线 应 该 有 多 宽 ? 回顾 第 14 章 ， 并 行 接口 代表 了 一 种 折 中 方案 : 虽然 增加 宽度 增加 了 
吞吐 量 ,， 但 更 大 的 宽度 也 占用 了 更 多 的 空间 ， 并 且 所 连接 的 设备 需要 更 多 的 电子 组 件 。 此 
外 ， 在 高 数据 速率 下 ， 并 行 导线 上 的 信号 会 相互 干扰 。 因 此 ， 架 构 师 在 空间 、 成 本 和 性 能 之 
间 均 衡 折 中 选择 总 线 宽度 。 

有 一 种 特别 有 助 于 减少 总 线 中 线路 数量 的 突出 技术 一 一 多 路 复 用 。 总 线 可 以 通过 两 种 方 
式 使 用 多 路 复 用 : 仅 数 据 线 多 路 复 用 ， 或 者 是 地 址 线 和 数据 线 的 组 合 多 路 复 用 。 

数据 多 路 复 用 。 在 第 14 章 中 ,我们 学 习 了 数据 多 路 复 用 的 工作 原理 。 本 质 上 ， 当 一 个 
附加 到 总 线 上 的 设备 有 大 量 的 数据 要 传输 时 ， 它 将 数据 划分 成 与 总 线 宽 度 一 样 大 的 片断 。 然 
后 ， 该 设备 反复 使 用 总 线 ， 每 次 发 送 一 个 片断 。 

地 址 和 数据 多 路 复 用 。 复 用 地 址 线 的 目的 是 减少 线 的 数量 。 为 了 理解 地 址 线 复 用 的 工 
作 原 理 ， 请 仔细 思考 图 15.5 中 的 步骤。 在 执行 提取 操作 的 情况 下 ， 地 址 线 和 数据 线 并 不 同 
时 使 用 ( 即 ， 在 同一 步骤 中 )。 因 此 ， 架 构 师 可 以 使 


用 相同 的 线 发 送 地 址 和 接收 数据 。 对 于 保存 操作 ， i 地 址 或 数据 线 
/一 一 一 一 全 一 一 一 

多 路 复 用 可 用 于 : 总 线 硬件 先 发 送 地 址 ， 然 后 发 送 

数据 9。 


大 多 数 总 线 大 量 使 用 多 路 复 用 方式 。 因 此 ， 一 
个 典型 的 总 线 有 两 组 信号 线 ， 而 不 是 概念 上 的 三 组 
信号 线 ， 即 ， 一 些 用 于 控制 的 信号 线 和 一 组 用 于 发 图 15.6 ”总线 示意 图 ， 包含 一 组 地 址 和 
送 地 址 或 数据 的 信号 线 。 图 15.6 说 明了 这 个 思想 。 数据 都 可 以 传输 的 线 。 使 用 这 
多 路 复 用 具有 两 个 优点 。 一 方面 ， 多 路 复 用 使 样 一 组 线 有 助 于 降低 成 本 


日 当然 ,在 复 用 总 线 上 接收 请 求 的 设备 必须 在 数据 传输 的 时 候 存储 地 址 。 
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架构 师 设计 的 总 线 具 有 较 少 的 线 。 另 一 方面 ， 如 果 总 线 中 的 线 数 是 固定 的 ， 多 路 复 用 可 以 提 
高 整体 性 能 。 要 了 解 原因 ， 请 考虑 数据 传输 。 如 果 总 线 中 的 KK 条 线 是 为 地 址 保留 的 ， 那 么 
在 数据 传输 期 间 不 能 使 用 这 天 条 线 。 但 是 ， 如 果 所 有 的 线 都 是 共享 的 ， 那 么 每 个 总 线 周期 
都 可 以 传输 额外 的 天 位 ， 这 意味 着 更 高 的 总 吞吐 率 。 

尽管 有 它 的 优点 ， 多 路 复 用 确实 有 两 个 缺点 。 首 先 ， 多 路 复 用 需要 花费 更 多 的 时 间 ， 因 
为 一 次 保存 操作 需要 两 个 总 线 周期 ( 即 一 个 周期 传输 地 址 ， 另 一 个 周期 传输 数据 )。 其 次 ， 
多 路 复 用 需要 一 个 更 复杂 的 总 线 协议 ， 因此， 也 需要 更 复杂 的 总 线 接口 硬件 。 尽 管 有 缺点 ， 
许多 总 线 设计 者 仍然 会 使 用 多 路 复 用 。 在 极端 情况 下 ， 总 线 可 以 被 设计 为 控制 信息 与 数据 和 
地 址 复 用 共同 的 信号 线 。 


15.10 总 线 的 宽度 和 数据 项 的 大 小 


多 路 复 用 的 使 用 有 助 于 解释 计算 机 体系 结构 的 另 一 个 方面 : 包括 地 址 在 内 的 所 有 数据 对 
象 的 大 小 是 统一 的 。 我 们 将 看 到 处 理 器 、 内 存 和 设备 之 间 的 所 有 数据 传输 都 发 生 在 总 线 上 。 
此 外 ， 由 于 总 线 在 固定 数量 的 信号 线 上 复 用 传输 ， 一 个 大 小 和 总 线 宽 度 一 样 的 数据 项 可 以 在 
一 个 周期 内 传输 ， 但 任何 大 于 一 个 总 线 宽度 的 项 需要 多 个 总 线 周 期 。 因 此 ， 架 构 师 选择 总 线 
宽度 的 大 小 、 通 用 寄存 器 的 大 小 以 及 ALU 或 功能 单元 使 用 的 数据 值 的 大 小 (例如 ， 整 数 或 
浮 点 值 的 大 小 ) 均 相同 是 有 意义 的 。 更 重要 的 是 ， 由 于 地 址 也 在 总 线 上 进行 复 用 ， 因 此 架构 
师 将 地 址 和 其 他 数据 项 设计 为 相同 的 大 小 也 是 有 意义 的 。 重 点 是 : 





15.11 总 线 地 址 空间 


一 个 内 存 总 线 ( 即 处 理 器 用 来 访问 内 存 的 总 线 ) 是 总 线 最 容易 理解 的 形式 。 前 几 章 讨论 
了 内 存 访 问 和 内 存 地 址 空间 的 概念 ; 我 们 将 看 到 总 线 是 如 何 实现 这 些 概念 的 。 如 图 15.7 所 
示 ， 内 存 总 线 提供 处 理 器 和 一 个 或 多 个 内 存 之 间 的 物理 互 连 。 


总 线 接口 





图 15.7 使 用 内 存 总 线 实现 处 理 器 和 内 存 间 的 物理 互 连 。 每 个 设备 中 的 控制 器 电路 用 于 处 理 总 
线 访 问 的 细节 


如 图 15.7 所 示 ， 连 接 到 内 存 总 线 的 处 理 器 和 内 存 模块 各 包含 一 个 接口 电路 。 接 口 实现 
了 总 线 协议 ， 处 理 所 有 总 线 通信 。 接 口 使 用 控制 线 来 获取 对 总 线 的 访问 ， 然 后 发 送 地 址 或 数 
据 值 来 执行 操作 。 因 此 ， 只 有 接口 了 解 总 线 细节 ， 如 电压 的 使 用 和 控制 信号 的 时 序 。 

从 处 理 器 的 角度 来 看 ， 总 线 接口 实现 提取 一 保存 范式 。 也 就 是 说 ,处 理 器 只 能 执行 两 种 


操作 : 一 种 是 从 总 线 地 址 中 读 取 ， 一 种 是 向 总 线 地 址 中 写 人 。 当 处 理 器 遇 到 访问 内 存 的 指 
令 ， 处 理 器 的 硬件 调用 总 线 接口 。 例 如 ， 在 许多 体系 结构 中 ， 加 载 指令 从 内 存 中 提取 一 个 
值 ， 并 将 该 值 放 在 通用 寄存 器 中 。 当 处 理 器 执行 一 次 加 载 操 作 时 ， 硬 件 发 出 一 个 到 总 线 接口 
的 提取 指令 。 类 似 地 ， 如 果 处 理 器 执行 向 内 存 中 写 和 一 个 值 的 指令 ， 硬 件 将 在 总 线 接 口上 执 
行 保存 操作 。 

从 程序 员 的 角度 来 看 ， 总 线 接口 是 不 可 见 的 。 程 序 设计 者 把 总 线 看 作 地 址 空间 。 创 建 一 
个 单独 的 地 址 空间 的 关键 在 于 内 存 配置 一 一 每 个 内 存 通过 配置 以 响应 特定 的 总 线 地 址 集 。 也 
就 是 说 ， 内 存 1 的 接口 被 分 配 的 地 址 集 与 内 存 2、3、4 的 接口 不 同 ， 等 等 。 当 处 理 器 在 总 线 
上 申请 提取 或 保存 请 求 时 ， 所 有 内 存 控制 器 都 接收 到 请 求 。 每 个 内 存 控制 器 将 请 求 中 的 地 址 
与 分 配 到 内 存 模块 的 地 址 集合 进行 比较 。 如 果 请 求 中 的 地 址 位 于 控制 器 的 集合 中 ， 则 控制 器 
响应 。 否 则 ， 它 会 忽略 这 个 请 求 。 重 点 是 : 





15.12 ”潜在 错误 

图 15.8 列 出 每 个 内 存 模块 接口 实现 的 概念 上 的 步骤 。 

总 线 硬件 报告 的 错误 被 称 为 总 线 错 误 ; 典型 的 总 线 协议 包括 检测 和 报告 各 种 总 线 错 误 类 
型 的 机 制 。 允 许 每 个 内 存 模 块 独立 运行 ， 意 味 着 


有 两 种 总 线 错误 可 能 发 生 : 和 
e 地 址 冲突 。 i 
e 未 分 配 地 址 。 监听 总 线 一 直到 一 个 请 求 出 现 ; 
地 址 冲突 。 我 们 使 用 术语 地 址 冲突 来 描述 一 i 汪 
种 总 线 错误 ， 当 两 个 或 更 多 的 接口 配置 错误 时 ， } 否则 { 
每 个 接口 都 会 响应 一 个 给 定 的 地 址 。 有 些 总 线 硬 忽略 请 求 


} 





件 设计 成 在 系统 启动 时 检测 和 报告 地 址 冲突 。 其 
他 硬件 则 设计 成 防止 冲突 。 在 任何 情况 下 ， 大 多 
数 总 线 协 议 含 有 在 运行 时 对 地 址 冲突 的 检测 一 一 
如 果 有 两 个 或 更 多 接口 试图 响应 一 个 给 定 的 请 
求 ， 总 线 硬件 会 检测 到 问题 ,并且 会 设置 一 组 控制 线 ， 指 示 一 个 错误 发 生 了 。 当 它 使 用 总 线 
时 ,处理 器 检查 总 线 控制 线 并 在 发 生 错 误 时 采取 行动 。 

未 分 配 的 地 址 。 如 果 处 理 器 试图 访问 的 地 址 是 一 个 没有 被 分 配 到 任何 接口 的 地 址 ， 则 发 
生 了 未 分 配 的 地 址 总 线 错误 。 要 检测 一 
在 总 线 上 发 送 请 求 后 ， 处 理 器 启动 一 个 计时 器 。 如 果 没 有 接口 响应 ， 计 时 器 超时 ， 这 会 使 得 
处 理 器 硬件 报告 总 线 错误 。 用 于 检测 未 分 配 的 地 址 的 超时 机 制 ， 也 可 以 用 于 检测 有 故障 的 硬 
件 (例如 ， 内 存 模块 不 响应 请 求 )。 


15.13 ”地 址 的 配置 和 插 槽 


一 些 总 线 硬 件 可 以 防止 总 线 错误 。 未 分 配 地 址 的 预防 是 一 个 棘手 的 问题 。 一 方面 ,为 了 
防止 总 线 错误 ,每 一 个 可 能 的 地 址 都 必须 分 配给 一 个 内 存 模块 。 男 一 方面 ， 大 多 数 内 存 系统 


图 15.8 内存 模块 中 总 线 接口 遵循 的 步骤 
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都 是 为 了 适应 扩展 而 设计 的 。 也 就 是 说 ， 总 线 通常 包含 足够 的 导线 来 寻 址 比 已 经 安装 在 计算 
机 中 的 内 存 更 大 的 内 存 地 址 空间 ( 即 ,一 些 地 址 将 未 分 配 )。 

幸运 的 是 ， 架 构 师 设计 了 一 个 方案 ， 有 利于 避免 两 个 模块 都 响应 给 定 请 求 一 一 专门 插 
楼 。 这 个 想法 非常 容易 懂 。 内 存 是 在 很 小 的 印刷 电路 上 制造 的 ， 每 个 电路 都 插 在 母 板 的 插 模 
上 。 为 了 避免 配置 错误 造成 的 问题 ， 所 有 的 内 存 板 是 相同 的 ， 在 内 存 板 插 和 人 之 前 没有 配置 
上 的 要 求 。 相 反 ， 主 板 上 会 添加 电路 和 导线 ， 这 样 第 一 插 模 只 接收 0 到 K-1 地 址 上 的 请 求 、 
第 二 搬 槽 只 接收 天 到 2K-1 上 的 请 求 ， 以 此 类 推 。 当 一 个 插 槽 识别 地 址 时 ， 会 把 地 址 的 低 阶 
位 传递 给 内 存 。 重 点 是 : 


. ee es ,各个 沾 格 才 出 三 冯 ， 





作为 一 种 替代 ， 一 些 计 算 机 包含 复杂 的 电路 ， 人 允许 MMU 可 以 在 计算 机 启动 时 配置 插 模 
地 址 。MMU 决定 了 插 槽 的 位 置 ， 并 分 配 地 址 范围 。 虽 然 它 增加 了 成 本 ,但 是 用 于 防止 冲突 
的 附加 电路 使 得 安装 内 存 更 加 容易 一 一 拥有 者 可 以 购买 内 存 模块 并 将 它们 插入 插 槽 ， 而 不 需 
要 配置 模块 ， 并 且 没 有 发 生 冲 突 的 危险 。 


15.14 多 总 线 的 问题 


计算 机 系统 应 该 有 多 个 总 线 吗 ?” 如 果 有 的 话 ， 需 要 多 少 ? 为 高 性 能 (如 大 型 计算 机 ) 而 
设计 的 计算 机 通常 包含 多 个 总 线 。 每 个 总 线 都 是 针对 特定 目的 而 优化 的 。 例 如 ， 大 型 机 可 
能 有 一 个 总 线 用 于 内 存 ， 一 个 用 于 高 速 IO 设备 ， 另 一 个 用 于 低速 IO 设备 。 有 一 种 选择 方 
案 ， 即 功能 不 太 强 的 计算 机 (例如 ,个 人 计算 机 ) 经 常 使 用 单个 总 线 处 理 所 有 连接 。 单 总 线 
的 主要 优点 是 成 本 低 、 通 用 性 强 。 处 理 器 不 需要 多 个 总 线 之 间 的 接口 ， 单 个 总 线 接口 既 可 以 
用 于 内 存 也 可 以 用 于 设备 。 

当然 ， 设 计 一 个 用 于 所 有 连接 的 总 线 意味 着 要 取 一 个 折 中 方案 。 也 就 是 说 ， 对 于 任何 给 
定 的 目标 ， 总 线 可 能 不 是 最 优 的 。 特 别 是 ， 如 果 处 理 器 使 用 单一 总 线 访问 内 存 中 的 指令 和 数 
据 ， 以 及 执行 TO， 总 线 很 容易 成 为 瓶颈 。 因 此 ， 使 用 单一 总 线 的 系统 通常 需要 一 个 很 大 的 
内 存 缓存 ， 使 其 可 以 在 不 使 用 总 线 的 情况 下 响应 大 部 分 内 存 请 求 。 


15.15 ”对 设备 使 用 提取 一 保存 


回想 一 下 ， 将 总 线 用 作 处 理 器 和 IO 设备 之 间 的 主要 连接 ， 总 线 上 的 所 有 操作 都 必须 使 
用 提取 - 保存 范式 。 这 两 种 说 法 似乎 互相 矛盾 一 一 尽管 它 对 数据 传输 很 有 效 ， 但 提取 - 保存 
似乎 看 上 去 并 不 能 对 设备 进行 控制 。 举 个 例子 ， 考 虑 一 种 操作 ， 例 如 测试 无 线 广播 当前 是 否 
在 接 和 点 的 范围 内 ， 或 者 控制 纸张 通过 打印 机 。 看 起 来 只 有 提取 和 保存 操作 是 不 够 的 ， 设 备 
需要 大 量 的 控制 指令 。 

为 了 理解 总 线 是 如 何 工 作 的 ， 我 们 必须 记 住 ， 总 线 提供 了 一 种 将 一 组 位 从 一 个 单元 传输 
到 另 一 个 单元 而 不 指定 每 一 位 的 含义 的 方法 。 提 取 和 保存 的 名 字 误 导 我 们 考虑 内 存 中 的 值 。 
然而 ， 在 总 线 上 ， 每 个 设备 的 硬件 接口 提供 了 一 种 对 这 些 位 的 唯一 解释 。 因 此 ， 设 备 可 以 将 
某 些 位 解释 为 控制 操作 ， 而 不 是 传输 数据 的 请 求 。 

一 个 例子 将 阐明 提取 一 保存 范式 和 设备 控制 之 间 的 关系 。 设 想 一 个 包含 16 个 状态 灯 的 
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简单 的 硬件 设备 ， 假 设 我 们 想 将 设备 连接 到 总 线 上 。 因 为 总 线 只 提供 提取 和 保存 操作 ， 我 们 
需要 建立 硬件 接口 ， 使 用 提取 - 保存 范式 进行 
控制 。 设 计 设 备 接 口 的 工程 师 首 先 列 出 要 执行 i 
的 操作 。 图 15.9 列 出 了 我 们 想象 中 的 设备 的 5 。 关闭 显示 。 
个 功能 。 。 设置 显示 亮度 。 
要 在 提取 -保存 范式 中 转化 出 控制 操作 ， “打开 第 i 个 状态 灯 。 
设计 者 选择 一 组 不 被 其 他 设备 使 用 的 总 线 地址 ， cn eb neds 
并 赋予 每 个 地 址 意义 。 例 如 ， 如 果 我 们 的 假想 图 15.9 假想 中 状态 灯 显 示 所 需 的 功能 的 示 





状态 灯 设 备 连 接 到 一 个 32 位 宽 的 总 线 上 ， 设 计 例 ， 每 个 功能 都 必须 使 用 提取 一 保 
者 可 能 会 选择 总 线 地 址 10000 到 10011， 并 且 可 存 范式 实现 


能 根据 图 15.10 分 配 含义 。 


10000 — 10003 保存 非 零 值 则 打开 显示 , 零 值 则 关闭 显示 


10000 — 10003 提取 显示 关闭 则 归 零 ， 否 则 不 归 零 
10004- 10007 | 保存 改变 亮度 ， 低 4 位 比特 指定 从 0 ( 暗 ) 到 15 ( 亮 ) 的 亮度 值 
10008 - 10011 保存 低 阶 16 位 各 控制 一 个 状态 灯 ，0 响应 为 灭 灯 ，1 响应 为 亮 灯 





图 15.10 列 出 图 15.9 所 示 的 设备 控制 功能 的 地 址 分 配 、 操 作 和 含义 的 示例 


15.16 ”接口 的 操作 


虽然 总 线 操作 被 命名 为 提取 和 保存 ,但 设备 接口 不 像 内 存 一 一 数据 不 会 被 存储 以 再 次 使 
用 。 相 反 ， 一 个 设备 将 总 线 请 求 中 的 地 址 、 操 作 和 数据 仅仅 当 作 一 组 位 来 处 理 。 该 接口 包含 
逻辑 电路 ， 将 每 个 请 求 中 的 地 址 位 与 分 配给 设备 的 地 址 进行 比较 。 如 果 匹 配 成 功 ， 接 口 激 活 
电路 来 响应 提取 或 保存 操作 。 例 如 ， 图 15.10 中 的 第 一 项 可 以 通过 这 样 一 个 电路 来 实现 : 该 
电路 在 总 线 上 测试 地 址 为 10000 的 保 厅 请 求 的 位 ， 并 对 数据 进行 操作 。 本 质 上 ， 电 路 执行 以 
下 测试 : 

if (address == 10000 && op == store && data !=0) 

turn_on_display; 

} else if (address == 10000 && op == store && data ==0) { 

turn_off_display; 

} 

虽然 我 们 使 用 编程 语言 符号 来 表示 操作 ， 但 是 接口 硬件 并 不 按 顺序 执行 测试 。 相 反 ， 接 
口 按 布尔 电路 构造 ， 以 用 来 并 行 地 测试 地 址 、 操 作 类 型 、 数 据 值 并 采取 正确 的 操作 。 


15.17 不 对 称 赋值 和 总 线 错误 


图 15.10 中 的 示例 没有 定义 对 某 些 地 址 进行 提取 或 保存 操作 的 影响 。 例 如 ， 规 定 中 没有 
定义 对 地 址 10004 的 提取 操作 。 为 了 得 出 这 个 想法 ， 即 不 需要 为 每 个 地 址 定义 提取 和 保存 操 
作 ， 我 们 说 赋值 是 不 对 称 的 。 图 15.10 中 的 规定 是 不 对 称 的 ， 因 为 处 理 器 可 以 从 地 址 10004 
开始 存储 一 个 4 字 节 的 值 ， 但 是 处 理 器 如 果 尝 试 从 地 址 10004 读 取 这 个 值 时 将 会 发 生 总 线 
错误 。 
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15.18 ”统一 内 存 和 设备 寻 址 


在 一 些 计算 机 中 ， 单 一 总 线 能 够 对 内 存 和 I/O 设备 进行 访问 。 在 这 样 的 体系 结构 中 ， 总 
线 上 地 址 的 分 配 定义 了 从 处 理 器 角度 看 到 的 地 址 空间 。 例 如 ， 想 象 一 个 单一 总 线 的 计算 机 系 
统 ， 如 图 15.11 所 示 。 





图 15.11 使 用 单一 总 线 的 计算 机 体系 结构 示意 图 ， 总 线 连接 内 存 和 设备 
在 图 15.11 中 ， 总 线 定 义 了 处 理 器 可 以 使 





用 的 单个 地 址 空间 。 必 须 为 每 个 内 存 模块 和 每 0x000000 到 0x0 ffffF 

个 设备 分 配 总 线 地 址 中 唯一 的 一 个 地 址 范围 。 0x100000 到 0x1 fi 

例如 ， 如 果 我 们 假设 每 个 内 存 模块 为 1 兆 字 节 0x200000 到 0x20000b 

且 每 个 设备 需要 12 个 存储 位 置 ， 则 总 线 必须 nd 邮 

分 配 使 用 4 个 地 址 范围 ， 如 图 15.12 所 示 。 图 15.12 图 15.11 所 示 的 一 组 设备 的 总 线 地 址 
我 们 也 可 以 用 类 似 第 11 章 中 内 存 地 址 空 的 一 种 可 能 分 配 的 示意 图 

间 的 图 来 想象 。 当 然 ， 相 对 于 内 存 占用 空间 ， 

每 个 设备 所 占用 的 空间 非常 小 ， 这 意味 着 图 中 Wt 人 


不 会 显示 太 多 的 细节 。 例 如 ， 图 15.13 显示 了 
图 15.12 中 分 配 的 结果 。 


15.19 总线 地 址 空间 中 的 “ 洞 ” 


图 15.12 中 的 地 址 分 配 被 认为 是 连续 的 ， 
这 意味 着 地 址 范围 不 包含 缺口 ， 即 分 配给 某 一 
个 范围 的 第 一 个 字 节 是 紧 接 着 上 一 个 范围 的 最 
后 一 个 字 节 的 。 连 续 的 地 址 分 配 并 不 必要 a 
如 果 软 件 意外 访问 了 未 被 分 配 的 地 址 ， 总 线 硬 
件 会 检测 问题 并 报告 总 线 错误 。 





使 用 第 13 章 中 的 术语 ， 我 们 说 如 果 地 址 0 
的 分 配 是 不 连续 的 ， 分 配 会 在 地 址 空间 上 留 下。 图 15.13 图 15.12 中 地 址 分 配 形成 的 地 址 空间 
一 个 或 多 个 洞 。 例 如 ， 总 线 可 以 为 内 存 保留 较 的 示意 图 。 相 比 于 每 块 内 存 ( 1 兆 字 
低 的 地 址 ， 并 将 较 高 的 地 址 分 配给 设备 ， 在 这 节 ) 所 占用 的 空间 大 小 ， 每 个 设备 
两 个 区 域 之 间 留 下 一 个 洞 。 (12 字 节 ) 所 占 空间 大 小 不 重要 
15.20 地址 映射 


作为 规范 的 一 部 分 ， 总 线 标准 规定 每 个 地 址 上 可 以 使 用 哪 种 硬件 。 我 们 称 该 规范 为 地 
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址 映射 。 注 意 ， 地 址 映射 不 同 于 地 址 分 配 ， 因 为 地 址 映射 只 是 规定 地 址 分 配 的 可 能 。 例 如 ， 
图 15.14 给 出 了 16 位 总 线 地 址 映射 的 一 个 示例 。 


区 
2 ee 洞 (不 可 用 ) 
i— 7 ~ 
/| 


王 一 润 (不 可 用 ) 


0x3fff 





0x0000 


图 15.14 16 位 总 线 的 一 种 可 能 的 地 址 映射 示意 图 。 其 中 两 个 区 域 分 配给 内 存 ， 一 个 区 域 分 配 
给 设备 


在 图 15.14 中 ， 可 用 于 内 存 的 地 址 空间 的 两 个 区 域 是 不 连续 的 。 相 反 ， 它 们 之 间 有 洞 。 
此 外 ， 另 有 一 个 洞 位 于 第 二 个 内 存 区 域 和 设备 区 域 之 间 。 

当 构建 计算 机 系统 时 ， 拥 有 者 必须 遵循 地 址 映射 。 例 如 ， 图 15.14 中 的 16 位 总 线 只 允 
许 有 两 块 内 存 ， 总 共 32 768 字 节 。 所 有 者 可 以 选择 安装 少 于 全 部 容量 的 内 存 ， 但 不 能 多 于 。 

总 线 地 址 映射 中 的 设备 空间 特别 有 趣 ， 因 为 为 设备 预 留 的 空间 通常 比 必要 的 要 大 得 多 。 
特别 是 ， 大 多 数 地 址 映射 为 设备 预 留 了 一 大 块 地 址 空间 ， 使 得 极端 情况 下 ， 总 线 可 以 容纳 数 
千 台 设备 。 然 而 ， 一 个 典型 的 计算 机 拥有 的 设备 少 于 十 几 个 ， 一 个 典型 的 设备 也 只 使 用 少许 
址 。 其 结果 是 : 


Re re 
和 全 病 、， 





15.21 总 线 的 程序 接口 


从 程序 员 的 角度 来 看 ， 使 用 总 线 有 两 种 方法 。 一 种 是 处 理 器 提供 了 特殊 的 指令 ， 用 于 访 
问 每 个 总 线 ; 另 一 种 是 处 理 器 将 所 有 内 存 操作 解释 为 对 总 线 的 引用 。 后 者 称 为 内 存 映射 体系 
结构 。 图 15.10 中 描述 的 对 假想 状态 灯 显 示 的 地 址 分 配 ， 可 作为 使 用 内 存 映射 方法 的 一 个 例 
子 。 要 打开 设备 ， 程 序 必 须 在 字 节 地 址 10000 到 10003 中 写 入 一 个 非 零 值 。 如 果 我 们 假设 一 
个 整数 由 4 字 节 组 成 ( 即 32 位 ) 并 且 处 理 器 使 用 小 端 字 节 序 ， 程 序 只 需要 把 一 个 非 零 值 存 
储 为 整数 ， 在 地 址 为 10000 的 位 置 上 。 程 序 员 可 以 使 用 下 面 的 C 语言 代码 来 执行 操作 : 

int  *ptr; /* 声明 ptr 为 一 个 指向 整数 的 指针 。*/ 

ptr = (*int)10000; ”/* 设置 指针 指向 地 址 10000。*/ 

*ptr = 1; /* 在 地 址 10000 ~ 10003 处 保存 非 零 值 。*/ 
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我 们 可 以 总 结 为 : 


处 理 器 可 以 使 用 专门 的 指令 访问 总 线 ， .或 者 可 以 使 用 内 存 映 射 的 方法 ， 这 种 方法 将 
正常 的 内 存 操作 用 于 设备 和 内 存 的 通信 。 


15.22 总 线 之 间 的 桥 


虽然 单个 总 线 具 有 简单 和 低 成 本 的 优点 ， 但 是 给 定 的 设备 可 能 只 能 使 用 特定 的 总 线 。 例 
如 ， 某 些 耳 机 需要 一 个 通用 串 行 总 线 (USB)， 一 些 以 太 网 设备 需要 外 设 组 件 互 连 (PCI) 总 
线 。 显 然 ， 具有 多 个 总 线 的 计算 机 可 以 容纳 非常 多 种 类 的 设备 。 当 然 ， 一 个 多 总 线 的 系统 既 
昂贵 又 复杂 。 因 此 ， 设 计 师 们 创造 了 一 种 廉价 而 直接 的 方法 将 多 个 总 线 连 接 到 计算 机 上 。 一 
种 方法 是 使 用 一 个 称 为 桥 的 硬件 设备 ， 连 接 两 个 总 线 ， 如 图 15.15 所 示 。 


Cm 


ee 


图 15.15 ”连接 两 个 总 线 的 桥 的 示意 图 ， 这 座 桥 必须 遵循 每 个 总 线 的 标准 


该 桥 使 用 一 组 天 个 地 址 。 每 个 总 线 选择 大 小 为 天 的 地 址 范围 并 将 其 分 配给 桥 。 两 种 分 
配 通常 不 一 样 ; 桥 的 设计 是 为 了 执行 翻译 功能 。 每 当 一 个 总 线 上 的 操作 涉及 分 配给 桥 的 地 址 
时 ， 桥 中 的 电路 就 转译 地 址 并 在 另 一 个 总 线 上 执行 操作 。 因 此 ， 如 果 总 线 1 上 的 处 理 器 对 桥 
地 址 之 一 执行 保存 操作 ， 桥 的 硬件 在 总 线 2 上 执行 等 效 的 保存 操作 。 事 实 上 ， 处 理 器 和 设备 
不 会 意识 到 这 涉及 多 个 桥 ， 从 这 个 意义 上 讲 ， 桥 是 透明 的 。 


15.23 主 总 线 和 辅助 总 线 


et er Re es ee 
就 是 说 ， 桥 将 一 组 总 线 上 的 地 址 映射 到 另 一 个 总 线 的 地 址 空间 中 。 图 15.16 展示 了 地 址 映射 
的 概念 。 在 图 中 ， 两 个 总 线 地 址 空 er 0 下 奴 辅助 总 线 的 地 址 空间 小 于 主 总 线 的 地 址 空 
间 。 更 重要 的 是 ,架构 师 选择 仅 映射 辅助 总 线 地 址 空间 的 一 小 部 分 ， 并 指定 它 映射 到 主 总 线 
为 设备 预 留 的 区 域 。 因 此 ， 辅 助 总 线 上 ， 任何 对 应 映射 区 域 中 地 址 的 设备 都 将 连接 到 计算 机 
的 主 总 线 。 

为 了 理解 桥 为 什么 受 欢迎 ， 可 以 考虑 一 个 常见 的 情况 ， 即 一 个 新 的 设备 必须 添加 到 已 经 
有 了 一 个 总 线 的 计算 机 上 。 如 果 新 设备 上 的 接口 与 计算 机 的 主 总 线 不 匹配 ， 可 以 创建 新 的 适 
配器 硬件 ,或 者 可 以 使 用 桥 将 一 个 辅助 总 线 添加 到 系统 中 。 使 用 桥 有 两 个 优势 : 使 用 桥 比 给 
每 个 设备 增加 一 个 接口 要 简单 ， 一 旦 一 个 桥 已 安装 ,计算 机 拥有 者 可 以 添加 额外 的 设备 给 辅 
助 总 线 ， 而 不 用 进一步 更 改 硬件 。 


主 总 线 的 
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15.24 ”对 程序 员 的 影响 

如 图 15.16 所 示 ， 在 两 个 地 址 空间 中 ,映射 地 址 集 不 需要 相同 。 我 们 的 目标 是 建立 一 个 
透明 的 桥 ， 以 至 于 软件 不 知道 辅助 总 线 的 存在 。 不 幸 的 是 ， 编 写 设备 驱动 软件 或 配置 计算 机 
的 程序 员 可 能 需要 理解 映射 。 例 如 ， 当 一 个 设备 被 安装 在 一 个 辅助 总 线 上 ， 该 设备 获得 一 个 
总 线 地 址 4。 作 为 初始 序列 的 一 部 分 ,该 设备 可 能 会 把 它 的 总 线 地 址 报告 给 驱动 软件 (第 17 
章 解 释 了 为 什么 设备 驱动 程序 需要 地 址 信息 )。 由 于 桥 只 转换 地 址 ， 设 备 和 使 用 数据 线 的 驱 
动 程序 之 间 的 通信 不 会 发 生 改 变 。 因 此 ， 为 了 在 主 总 线 上 生成 一 个 地 址 ， 驱 动 软件 可 能 需要 
了 解 桥 是 如 何 映射 地 址 的 。 


15.25 总 线 的 替代 者 一 一 交换 结构 


虽然 对 大 多 数 计算 机 系统 来 说 总 线 是 基础 的 ， 但 总 线 有 一 个 缺点 : 总 线 硬件 一 次 只 能 执 
行 一 次 传输 。 也 就 是 说 ， 虽 然 多 个 硬件 单元 可 以 连接 到 一 个 给 定 的 总 线 ， 但 是 任何 时 候 最 多 
只 有 一 对 连接 单元 可 以 通信 。 基 本 模式 有 三 步 : 等 待 独占 总 线 ， 进 行 传输 ， 释 放 总 线 使 其 可 
以 进行 男 一 次 传输 。 

有 些 总 线 扩展 该 模式 ， 允 许多 个 附加 单元 在 每 次 获得 总 线 时 传输 入 字 节 的 数据 。 对 于 
总 线 架构 不 足够 的 情况 ， 架 构 师 已 经 发 明了 人 允许 多 个 传输 同时 发 生 的 替代 技术 。 这 些 技术 称 
为 交换 结构 ， 使 用 多 种 形式 。 有 些 结构 的 设计 是 为 了 处 理 少 数 几 个 连接 的 单元 ， 而 其 他 的 结 
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构 则 要 处 理 成 百 上 千 个 单元 。 类 似 地 ， 一 些 结构 限制 了 传输 ， 因 此 只 有 人 少数 连接 单元 可 以 同 
时 启动 传输 ， 而 其 他 结构 允许 同时 进行 多 个 传输 。 结 构 种 类 繁多 的 原因 之 一 来 自 经 济 方面 : 
高 性 能 ( 即 更 多 的 同步 交流 ) 意味 着 开销 更 大 ， 更 高 的 成 本 也 许 是 不 值 当 的 。 

也 许 最 容易 理解 的 交换 结构 是 由 纵横 式 交 换 和 矩阵 开关 组 成 的 。 我 们 可 以 把 一 个 交叉 开关 
看 作 是 X 个 输入 和 M 个 输出 的 矩阵 。 交 叉 开 关 有 NxM 个 电子 开关 ， 每 个 开关 将 一 个 输入 
连接 到 一 个 输出 。 在 任何 时 候 ， 交 叉 开 关 都 可 以 打开 开关 来 连接 输入 和 输出 对 ， 如 图 15.17 
所 示 。 


输入 
输入 ， 


输入 ， 


输入 ， 


输出 输出， 输出 ... 输出, 


图 15.17- 具有 N 个 输入 和 M 个 输出 的 交叉 开关 的 概念 图 ， 其 中 用 黑 点 标明 了 活动 连接 。 交 又 
开关 机 制 确保 在 任何 时 刻 只 有 一 个 连接 对 给 定 行 或 给 定 列 有 效 


此 图 帮助 我 们 理解 为 什么 交换 结构 价格 昂贵 。 首 先 ， 图 中 的 每 一 行 表 示 由 多 条 导线 组 成 
的 并 行 数据 通路 。 其 次 ,输入 和 输出 之 间 的 每 一 个 潜在 的 交叉 点 都 需要 一 个 电子 开关 ， 该 开 
关 可 以 将 输入 连接 到 该 点 的 输出 。 因 此 ， 一 个 交 又 开关 需要 Nx M 个 开关 部 件 ， 其 中 每 个 开 
关 都 必须 能 够 并 联 连接 。 相 比 之 下 ， 总 线 只 需要 N+M 个 电子 元 件 (用 来 将 每 个 输入 和 每 个 
输出 连接 到 总 线 )。 尽 管 成 本 高 ， 但 是 交换 结构 在 高 性 能 系统 中 很 受 欢 迎 。 


15.26 ”小结 


总 线 是 用 于 在 计算 机 系统 中 连接 内 存 、1/O 设备 和 处 理 器 的 基本 机 制 。 大 多 数 总 线 使 用 
并 行 操作 ， 即 总 线 由 允许 多 位 同时 传输 的 并 行 线路 组 成 。 

每 个 总 线 定义 一 个 协议 ， 附 加 的 设备 使 用 这 个 协议 来 访问 总 线 。 大 多 数 总 线 协 议 遵循 
提取 - 保存 范式 ; 连接 到 总 线 的 1O 设备 用 于 进行 提取 或 保存 操作 ， 并 解释 为 对 设备 的 控制 
操作 。 

从 概念 上 讲 ， 总 线 协议 指定 三 种 单独 的 信息 形式 : 控制 信息 、 地 址 信息 和 数据 。 实 际 上 ， 
总 线 中 每 种 形式 不 需要 独立 导线 ， 因 为 总 线 协议 可 以 在 一 小 组 导线 上 进行 多 路 复 用 通信 。 

总 线 定义 一 个 可 能 包含 洞 ( 即 未 分 配 的 地 址 ) 的 地 址 空间 。 计 算 机 系统 可 以 有 一 个 单独 
的 总 线 来 连接 内 存 和 附加 的 IO 设备 ， 或 者 可 以 有 多 个 总 线 ， 每 个 总 线 连接 特定 类 型 的 设 
备 。 有 一 种 替代 方案 ， 即 一 种 称 为 桥 的 硬件 设备 ， 它 可 以 通过 映射 所 有 或 部 分 的 辅助 总 线 地 
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址 空间 到 计算 机 的 主 总 线 地 址 空间 来 添加 多 个 辅助 总 线 。 
总 线 的 主要 替代 者 称 为 交换 结构 。 虽 然 它们 通过 使 用 并 行 方式 实现 更 高 的 吞吐 率 ， 但 交 
换 结 构 仅 限于 高 端 系统 ， 因 为 交换 结构 比 总 线 要 昂贵 得 多 。 


习题 

15.1 如 果 硬 件 架构 师 让 你 在 两 种 方案 中 选择 ， 方 案 一 是 单个 的 32 位 总 线 设计 ， 复 用 数据 和 地 址 信息 
在 总 线 上 传输 ; 方案 二 是 2 个 16 位 总 线 ， 一 个 用 于 发 送 地 址 信息 ， 另 一 个 用 来 发 送 数据 。 你 选 
择 哪 种 设计 ? 为 什么 ? 

15.2 ”在 计算 机 中 ， 什 么 是 总 线 ? 总 线 连接 了 什么 ? 

15.3 ”你 的 朋友 说 他 们 的 电脑 有 一 个 特殊 的 总 线 ， 是 苹果 公司 的 专利 。 我 们 用 什么 术语 来 描述 由 一 家 
公司 所 有 的 总 线 设计 ? 

15.4 总 线 中 导线 的 三 种 概念 上 的 分 类 是 什么 ? 

15.5 ”什么 是 提取 一 保存 范式 ? 

15.6 如 果 将 总 线 上 的 导线 划分 成 控制 线 和 其 他 线路 ， 那么 其 他 线路 的 两 个 主要 用 途 是 
什么 ? 

15.7 每 个 内 存 芯 片 中 都 有 一 个 单独 插 槽 的 优点 是 什么 ? 

15.8 ”假设 为 一 个 设备 分 配 从 0x4000000 到 0x4000003 的 地 址 ， 用 C 语言 写 出 如 何 将 值 为 0xff0001A4 


的 数 存 储 到 此 地 址 中 。 
15.9 如 果 总 线 可 以 每 周期 传输 64 位 ， 并 且 以 66MHz 的 频率 运行 ， 那么 这 个 总 线 每 秒 的 总 吞吐 量 是 
多 少 MB? 


15.10 ”什么 是 交换 结构 ， 与 总 线 相 比 ， 它 的 主要 优势 是 什么 ? 

15.11 在 NN 个 输入 和 MM 个 输出 的 交叉 开关 交换 结构 中 可 以 发 生 多 少 次 同步 传输 ? 
15.12 ”搜索 因特网 ， 列 出 各 种 交换 结构 设计 。 

15.13 ”在 网 上 寻找 对 用 于 交换 结构 的 CLOS 网 络 的 解释 ， 并 写 一 个 简短 的 描述 。 
15.14 ”什么 是 桥 连接 ? 
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16.1 引言 


先前 的 章节 里 介绍 了 IO。 前 一 章 解 释 了 总 线 如 何在 处 理 器 和 一 组 IO 设备 之 间 提 供 连 
接 。 该 章 还 讨论 了 总 线 地 址 空间 ， 展 现 了 一 个 地 址 空间 如 何 将 内 存 和 IO 设备 结合 起 来 。 最 
后 ， 该 章 说 明了 一 个 总 线 如 何 利用 提取 - 保存 范式 ， 展 现 了 如 何 利用 提取 和 保存 操作 实现 询 
问 或 控制 外 部 设备 。 

这 一 章 继续 讨论 。 本 章 描述 并 比较 了 处 理 器 和 IO 设备 间 的 两 个 基本 交互 方式 。 本 章 着 
重 于 中 断 驱动 的 JO， 说 明了 操作 系统 上 的 设备 驱动 软件 如 何 与 外 部 设备 交互 。 

下 一 章 将 通过 以 一 个 程序 员 的 角度 审视 IO ， 采 用 不 同 的 方法 继续 这 一 主题 。 该 章 将 介 
绍 各 种 独立 的 设备 ， 并 解释 它们 如 何 与 处 理 器 交互 。 


16.2 1/O 范式 


我 们 从 前 一 章 得 知 IO 设备 连接 到 总 线 ， 处 理 器 可 以 与 设备 进行 交互 ， 主 要 通过 给 已 经 
分 配给 设备 的 总 线 地 址 发 出 提取 -保存 操作 。 尽 管 IO 的 基本 机 制 容 易 设 定 ， 但 仍然 有 一 些 
遗留 的 问题 。 每 个 设备 应 该 支持 什么 控制 操作 ? 运行 在 处 理 器 上 的 应 用 软件 如 何在 不 了 解 硬 
件 细节 的 情况 下 访问 一 个 给 定 的 设备 ?处 理 器 与 IO 设备 间 的 交互 是 否 会 影响 到 系统 总 体 的 
性 能 ? 


16.3 ”可 编程 的 MO 


早年 的 计算 机 采取 直接 的 方法 对 待 外 设 : 一 个 外 部 设备 由 基础 数字 电路 构成 ， 这 些 电 路 
控制 硬件 以 响应 提取 - 保存 操作 ; CPU 处 理 所 有 的 细节 问题 。 举 个 例子 ， 想 要 在 硬盘 上 写 
数据 ，CPU 便 逐 个 激活 设备 上 的 一 系列 电路 。 电 路 定位 磁盘 读 取 臂 ， 并 使 得 读 写 头 写 人 一 
块 数据 。 需 要 明确 如 下 想法 ， 即 早期 的 外 部 设备 只 由 基础 电路 构成 以 响应 CPU 的 命令 ， 因 
此 ， 我 们 说 这 样 的 设备 是 非 智能 的 ， 并 且说 这 种 IO 交互 方式 是 可 编程 的 。 


16.4 同步 

看 起 来 通过 写 软件 完成 可 编程 的 IO 是 比较 平常 的 : 程序 仅仅 是 将 一 个 值 赋 到 总 线 上 的 
地 址 。 然 而 ， 想 要 理解 IO 编程 ， 我 们 需要 记 住 两 件 事 。 第 一 ,一 个 非 智能 的 设备 不 能 记 住 
一 系列 命令 。 取 而 代 之 的 是 ， 当 处 理 器 发 出 命令 时 ， 设 备 中 的 电路 可 以 准确 地 完成 每 一 个 命 
令 。 第 二 ， 处 理 器 比 IO 设备 的 操作 更 快 一 一 即使 是 一 个 比较 慢 的 处 理 器 也 可 以 在 一 个 马达 
或 者 机 械 制 动 器 移动 物理 装置 的 时 间 内 一 次 执行 几 千 条 指令 。 

举 个 机 械 设 备 的 例子 ， 假 设 有 一 个 打印 机 。 打 印 机 制 可 以 在 页 面 上 喷 墨 ， 但 任何 时 候 都 
只 能 打印 一 条 罕 小 的 垂直 带 。 打 印 从 页 面 顶端 开始 。 在 打印 了 一 条 水 平 带 之 后 ， 必 须 在 下 一 
条 水 平 带 被 打印 之 前 ， 将 纸张 推进 。 如 果 处 理 器 仅 发 出 打印 一 个 字符 的 指令 ， 则 推进 纸张 打 
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印 男 一 个 字符 ， 这 就 可 能 会 在 纸张 还 在 移动 的 过 程 中 打印 第 二 个 字符 ， 导 致 涂抹 。 在 最 糟糕 
的 情况 下 ， 如 果 打印 机 制 不 能 在 纸张 推进 机 制 运行 时 操作 ， 则 硬件 可 能 会 损坏 。 

为 了 防止 出 现 问题 ， 可 编程 的 IO 依赖 于 同步 。 也 就 是 说 ,一 旦 它 发 出 命令 ， 处 理 器 就 
必须 与 设备 交互 ， 等 待 设备 准备 好 接收 其 他 命令 。 我 们 可 以 总 结 如 下 : 


”因为 处 理 器 的 运行 速度 比 ae 元 
二 在 梓 制 的 设备 同步 NA 


a ad ee 





16.5 ” 轮 询 


处 理 器 用 于 IO 设备 的 基本 同步 形式 称 为 轮 询 。 实 质 上 ， 轮 询 要 求 处 理 器 在 开始 下 一 个 
操作 之 前 反复 询问 操作 是 否 已 完成 。 因 此 ， 为 了 执行 打印 操作 ， 处 理 器 可 以 在 每 个 步骤 使 用 
轮 询 。 图 16.1 显示 了 一 个 例子 。 


* 测试 打印 机 是 否 开机 。 
“打印 机 加 载 一 张 白 纸 。 

* 轮 询 确定 何 时 装 入 纸张 。 

* 指定 内 存 中 的 数据 ， 以 指示 要 打印 的 内 容 。 
* 轮 询 等 待 打印 机 加 载 数据 。 

* 使 打印 机 开始 喷涂 墨 带 。 


* 轮 询 以 确定 何 时 完成 墨水 机 制 。 

* 使 打印 机 将 纸张 送 入 下 一 个 条 带 。 

“ 轮 询 确 定 纸张 何 时 进入 。 

“重复 上 述 六 个 步骤 来 打印 每 个 条 带 。 
* 使 打印 机 弹出 页 面 。 

* 轮 询 确 定 页 面 何 时 被 弹出 。 





图 16.1 处 理 器 和 IO 设备 之 间 的 同步 示例 。 处 理 器 必须 等 待 每 一 步 完 成 


16.6 轮 询 的 代码 


软件 如 何 执行 轮 询 ” 由 于 总 线 遵循 提取 -保存 范式 ， 所 以 轮 询 必 须 使 用 提取 操作 。 也 就 
是 说 ， 为 设备 分 配 的 一 个 或 多 个 地 址 对 应 于 其 状态 信息 一 一 当 处 理 器 从 地 址 提取 值 时 ， 设 备 
通过 给 出 其 当前 状态 进行 响应 。 

为 了 理解 程序 员 如 何 看 待 轮 询 ， 我 们 需要 知道 硬件 设备 的 具体 细节 。 不 幸 的 是 ， 大 多 数 
设备 非常 复杂 。 例 如 ， 许 多 供应 商 销售 的 三 合 一 打印 机 可 以 用 作 扫 描 仪 或 传真 机 以 及 打印 
机 。 为 了 保持 简单 的 例子 ， 我 们 将 设想 一 个 简单 的 打印 设备 ， 并 为 设备 创建 一 个 可 编程 接 
口 。 虽 然 示 例 设备 确实 比 商 业 设 备 简单 得 多 ， 但 通常 的 方法 是 完全 相同 的 。 

回想 一 下 ， 在 地 址 空间 中 为 社 备 分 配 了 地 址 ， 并 且 该 设备 被 设计 为 响应 对 这 些 地 址 的 提 
取 和 保存 指令 。 制 造 设 备 时 ， 设 计 人 员 不 会 指定 将 要 使 用 的 地 址 ， 而 是 通过 给 出 地 址 0 到 
N-1 来 写 人 相关 规范 。 稍 后 ， 当 设备 安装 在 计算 机 中 时 ， 会 分 配 实际 地 址 。 规 范 中 相对 地 址 
的 使 用 意味 着 程序 员 可 以 在 不 知道 实际 地 址 的 情况 下 编写 软件 来 控制 设备 。 一 旦 设备 安装 完 
毕 ， 实际 地 址 就 可 以 作为 参数 传递 给 软件 。 
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一 个 例子 将 阐明 这 个 概念 。 我 们 的 虚拟 打印 机 定义 了 32 个 连续 的 地 址 字 节 。 此 外 ， 该 
设计 将 这 些 地 址 组 成 8 个 字 ， 每 组 为 32 位 。 字 的 使 用 是 典型 的 。 图 16.2 中 的 规范 显示 了 设 
备 如 何 解释 每 个 地 址 的 提取 和 保存 操作 。 


打印 机 电源 打开 时 非 零 
非 零 则 开始 加 载 一 张 纸 
要 打印 的 数据 的 内 存 地 址 


非 零 导 致 打印 机 接收 地 址 
开始 喷 墨 喷涂 当前 带 

非 零 使 纸张 进入 下 一 个 带 
忙 时 : 设备 忙 时 不 为 零 

四 个 八 位 组 的 CMYK 墨水 量 





16.2 虚拟 打印 设备 上 的 总 线 接口 规范 。 人 处 理 器 使 用 提取 和 保存 来 控制 设备 并 确定 其 状态 


图 16.2 给 出 了 的 提取 和 保存 操作 的 含义 ， 这 些 操作 针对 分 配给 虚构 的 IO 设备 的 地 址 。 
如 上 所 述 ， 规 范 中 的 地 址 从 0 开始 ， 因 为 它们 是 相对 的 。 当 设备 连接 到 总 线 时 ， 设 备 将 在 总 
线 地 址 空间 的 某 处 分 配 32 字 节 ， 软 件 将 在 与 设备 通信 时 使 用 实际 地 址 。 

一 旦 程序 员 给 定 图 16.2 中 类 似 的 硬件 规范 ， 编 写 控制 设备 的 代码 就 很 简单 。 例 如 ， 假 
设 我 们 的 打印 设备 已 分 配 了 起 始 总 线 地 址 0x110000。 图 16.2 中 地 址 0 到 3 将 对 应 于 实际 地 
址 0x110000 到 0x110003。 为 了 确定 打印 机 是 否 开机 ， 处 理 器 只 需要 访问 地 址 0x110000 到 
0x110003 中 的 值 。 如 果 该 值 为 零 ， 则 打印 机 关闭 。 访 问 设备 状态 的 代码 看 起 来 像 内 存 读 取 。 
在 C 中 ， 可 以 写 人 状态 测试 代码 : 


int *p=(int*)Ox110000; 


if(*p!=0){  ”/* 测试 打印 机 是 否 打 开 */ 
/* 打印 机 已 打开 */ 

} else{ 
/* 打印 机 关闭 */ 

} 

该 示例 假定 整数 大 小 为 4 字 节 。 该 代码 将 p 声明 为 一 个 指向 整数 的 指针 ， 将 p 初始 化 为 
0x110000， 然 后 使 用 * p 获取 地 址 0x110000 处 的 值 。 

现在 我 们 了 解 了 软件 如 何 与 设备 进行 通信 ， 我 们 可 以 考虑 一 系列 步骤 和 同步 。 图 16.3 
显示 了 执行 图 16.1 中 某 些 步 又 的 C 代码 。 

图 16.3 中 的 代码 假定 设备 已 分 配 地 址 0x110000， 并 且 数 据 结构 mydata 包含 要 打印 的 
数据 ， 这 些 数 据 按 打印 机 预期 形式 存储 。 要 理解 指针 的 使 用 ， 请 记 住 C 编程 语言 定义 了 指 
针 运 算 : 将 天 添加 到 整数 指针 将 使 指针 前 进 K*N 字 节 ， 其 中 N 是 一 个 整数 所 占用 的 字 节 数 。 
因此 ， 如 果 变 量 p 值 为 0x110000， 则 p+1 等 于 0x110004。 

示例 代码 演示 了 许多 设备 的 另 一 个 特性 ， 这 对 于 程序 员 来 说 可 能 看 起 来 很 奇怪 : 单个 操 
作 的 多 个 步 又。 在 我 们 的 示例 中 ， 要 打印 的 数据 位 于 内 存 中 ， 并 使 用 两 个 步骤 指定 数据 。 在 
第 一 步 中 ， 将 数据 的 地 址 传递 给 打印 机 。 在 第 二 步 中 ， 指 示 打 印 机 加 载 数据 的 副本 。 这 两 个 
步骤 可 能 看 起 来 没有 必要 一 一 为 什么 一 旦 指定 了 地 址 ， 打 印 机 不 会 自动 开始 加 载 数 据 ? 要 理 
解 原因 ， 请 记 住 ， 每 个 提取 和 保存 指令 都 控制 设备 中 的 电路 。 设 备 设计 人 员 可 能 会 选择 这 样 
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的 设计 ， 因 为 他 发 现 构建 具有 两 个 独立 电路 的 硬件 更 容易 ， 一 个 接受 内 存 地 址 ， 另 一 个 接收 
来 自 内 存 的 数据 。 


int *p; /* 指向 设备 地 址 区 域 的 指针 */ 


p=(int*)0x110000;  ”/* 初始 化 指向 设备 地 址 的 指针 */ 

if (*p == 0) /* 测试 打印 机 是 否 开 机 */ 
error( printer not on"); 

*(p+1) = 1; /* 开始 加 载 纸张 */ 

while (*(p+6) != 0) /* 轮 询 等 待 加 载 完成 */ 


“(p+2) = &mydata; /* 指定 数据 在 内 存 中 的 位 置 */ 
“(p+3) = 1; /* 导致 打印 机 接收 数据 */ 
while (*“(p+6) != 0) /* 轮 询 等 待 打 印 机 完成 加 载 数据 */ 


*(p+4) = 1; /* 开始 喷 墨 喷涂 */ 
while (“(p+6) {= 0) /* 轮 询 等 待 喷 墨 打印 完成 */ 


*(p+5) = 1; /* 进 纸 到 下 一 个 带 */ 
while (*(p+6) (= 0) /* 轮 询 等 待 纸张 推进 完成 */ 





图 16.3 示例 C 代 码 , 使 用 轮 询 在 图 16.2 中 指定 的 虚拟 打印 设备 上 执行 图 16.1 中 的 某 些 步 又 


没有 编写 过 程序 来 控制 设备 的 程序 员 可 能 会 发 现代 码 令 人 震惊 ， 因 为 它 包 含 四 次 
while 语句 ， 每 个 语句 都 会 成 为 一 个 无 限 循环 。 如 果 在 传统 应 用 程序 中 出 现 这 样 的 语句 ， 
则 语句 将 会 出 错 ， 因 为 循环 会 不 断 地 在 内 存 位 置 测试 值 而 不 作 任 何 更 改 。 然 而 ， 在 该 示例 
中 ,指针 p 引用 设备 而 不 是 内 存 位置 。 因 此 ， 当 处 理 器 从 位 置 p + 6 提取 一 个 值 时 ， 请 求 传 
递 给 一 个 设备 ， 该 设备 将 其 解释 为 对 状态 信息 的 请 求 。 因 此 ， 与 内 存 中 的 值 不 同 ， 设 备 返回 
的 值 将 随时 间 变 化 。 如 果 处 理 器 轮 询 足 够 多 的 时 间 ， 设 备 将 完成 其 当前 操作 并 将 状态 值 返回 
为 零 。 重 点 在 于 : 


值 是 随时 变化 的 。 







看 起 来 包含 了 无 限 的 循环 ， 但 是 代码 也 





16.7 ”控制 和 状态 寄存 器 


我 们 使 用 术语 控制 和 状态 寄存 器 ( CSR) 来 指 代 设 备 使 用 的 一 组 地 址 。 更 具体 地 说 ， 控 
制 寄存 器 对 应 于 一 个 连续 地 址 集合 (通常 为 整数 的 大 小 )， 对 保存 操作 作出 响应 ， 而 状态 寄 
存 器 对 应 于 一 个 连续 地 址 集合 (通常 为 整数 的 大 小 )， 对 提取 操作 作出 响应 。 

在 实践 中 ，CSR 通常 比 图 16.2 中 列 出 的 简化 版 本 复杂 。 例 如 ， 典 型 的 状态 寄存 器 为 各 
个 位 分 配 含义 〈 例 如 ， 状 态 字 的 低位 指定 设备 是 否 处 于 运动 中 ， 下 一 位 指定 是 否 发 生 错误 ， 
等 等 )。 更 重要 的 是 ， 为 了 节省 地 址 ， 许 多 设备 将 控制 和 状态 功能 组 合成 一 组 地 址 。 也 就 是 
说 ,一 个 地 址 可 以 同时 提供 这 两 种 功能 一 一 对 地 址 的 保存 操作 控制 设备 ， 对 同一 地 址 的 提取 
操作 报告 设备 状态 。 

作为 最 后 的 细节 ， 一些 设 备 将 提取 操作 解释 为 对 状态 信息 和 控制 操作 的 请 求 。 例 如 ， 触 
控 板 传递 字 节 以 指示 用 户 手指 的 运动 。 处 理 器 使 用 提取 操作 从 触 控 板 获取 数据 。 此 外 ， 每 次 
提取 都 会 自动 重 置 硬件 以 测量 下 一 个 动作 。 
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16.8 使 用 结构 来 定义 CSR 


图 16.3 中 的 示例 代码 使 用 指针 和 指针 运算 来 引用 单个 项 。 在 实践 中 ， 程 序 员 通 常会 创 
建 一 个 定义 CSR 的 C 结构 ， spl brett rep thay 例如 ， 图 16.4 
显示 了 当 使 用 结构 来 定义 CSR 时 ， 图 16.3 中 的 代码 如 何 表示 。 

如 图 16.4 所 示 ， 使 用 结构 的 代码 更 易于 阅读 和 调试 。 因 为 结构 的 成 员 可 以 被 赋予 有 意 
义 的 名 字 ， 所 以 阅读 代码 的 程序 员 可 以 根据 目的 猜测 ， 即 使 他 们 并 不 熟悉 设备 。 另 外 ， 使 用 
结构 可 以 改善 程序 的 组 织 ， 因 为 个 别 CSR 的 所 有 偏 移 量 都 在 一 个 地 方 指定 ， 而 不 是 做 入 整 
个 代码 中 。 总 结 如 下 : 


程序 员 可 以 通过 声明 一 个 定义 设备 所 有 CSR 的 结构 ， 各 后 抽 榴 中 天 同年 如 要 术 吉 
可 读 性 ， 而 不 是 在 整个 代码 中 分 布 CSR 的 引用 。 


/* 打印 机 CSR 的 模板 */ 

/* 打印 机 是 否 开机 ? */ 

/* 装 入 一 张 纸 */ 

/* 指定 要 打印 的 数据 的 地 址 */ 
/* 从 内 存 上 传 数据 */ 

/* 开始 喷 墨 喷涂 */ 

/* 进 纸 到 下 一 个 带 */ 

/* 非 零 表 示 设 备 忙 */ 

/*4 字 节 表示 的 CMYK 墨水 量 */ 


Struct csr{ 
int csr_power; 
int csr_load; 
int csr_addr; 
int csr_getdata; 
int csr_spray; 
int csr_advance; 
int csr_dev_busy; 
int csr_levels; 


} 


Struct 


p= (struct csr *)0x110000 ; 


if (p->csr_power == 0); 
error("printer not on"); 

p->csr_load = 1; 

while (p->csr_dev_busy) 


p->csr_addr = &mydata 
p->csr_getdata = 1; 
while (p->csr_dev_busy) 


p->csr_spray = 1; 
while (p->csr_dev_busy) 


p->csr_ 
while (p->csr_dev_busy) 


= 


/* 指向 设备 地 址 的 指针 */ 


/* 设置 pp 为 设备 地 址 */ 
/* 测试 打印 机 是 否 开机 */ 


/* 开始 加 载 纸张 */ 
/* 轮 询 等 待 加 载 完 成 */ 


/* 指定 数据 在 内 存 中 的 位 置 */ 
/* 导致 打印 机 接收 数据 */ 
/* 轮 询 等 待 打 印 机 完成 加 载 数据 


/* 开始 喷 墨 喷涂 */ 
/* 轮 询 等 待 喷 墨 打印 完成 */ 


/* 进 纸 到 下 一 个 带 */ 
/* 轮 询 等 竺 纸张 推进 完成 */ 


图 16.4 利用 C 结构 重 写 图 16.3 的 代码 


*/ 





16.9 处 理 器 的 使 用 和 轮 询 


可 编程 IO 体系 结构 的 主要 优势 来 自 经 济 效益 : 由 于 它们 不 包含 复杂 的 数字 电路 ， 因 此 
依赖 于 可 编程 IO 的 设备 比较 廉价 。 可 编程 IO 的 主要 缺点 来 自 计 算 开 销 : 每 一 步 都 需要 处 
理 器 与 1 O 设备 交互 。 

为 了 理解 轮 询 不 受 欢 迎 的 原因 ， 我 们 必须 回想 起 IO 设备 和 计算 之 间 的 基本 不 匹配 性 : 
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因为 它们 是 机 电 的 ， 所 以 IO 设备 的 运行 速度 比 处 理 器 慢 几 个 数量 级 。 此 外 ， 如 果 处 理 器 使 
用 轮 询 来 控制 IO 设备 ， 则 处 理 器 等 待 的 时 间 量 是 固定 的 ， 并 且 与 处 理 器 速度 无 关 。 
重点 可 以 总 结 如 下 : 





转向 这 个 陈述 会 产生 一 个 必然 结果 : 如 果 处 理 器 使 用 轮 询 来 等 待 IO 设备 ， 那 么 使 用 更 
快 的 处 理 器 仅仅 意味 着 处 理 器 将 执行 更 多 等 待 设备 的 指令 ( 即 循环 将 运行 得 更 快 ， 如 图 16.3 
所 示 )。 因 此 ， 更 快 的 处 理 器 只 会 浪费 更 多 的 周期 来 等 待 1O 设备 一 一 如 果 处 理 器 不 需要 轮 
询 ， 处 理 融 可 能 会 执行 计算 。 


16.10 ”中断 驱 动 的 MO 


在 20 世纪 50 年 代 和 60 年 代 ， 计 算 机 架构 师 开 始 意识 到 处 理 器 和 LO 设备 的 速度 不 匹 
配 。 当 使 用 真空 管 的 第 一 代 计 算 机 被 使 用 固态 器 件 的 第 二 代替 代 时 ， 这 种 差异 尤其 重要 。 尽 
管 使 用 固态 器 件 〈 即 晶体 管 ) 提高 了 处 理 器 的 速度 ， 但 IO 设备 的 速度 几乎 保持 不 变 。 因 此 ， 
架构 师 探 索 了 解决 IO 与 处 理 器 速度 不 匹配 的 方法 。 

有 一 种 方法 表现 优越 ， 并 导致 了 计算 机 体系 结构 的 革命 ,产生 了 第 三 代 计 算 机 。 该 方法 
称 为 中 断 机 制 ， 现 在 是 处 理 器 设计 的 标准 。 

中 断 驱 动 IO 的 核心 前 提 很 简单 : 不 是 浪费 时 间 轮 询 ， 而 是 允许 处 理 器 在 IO 设备 运行 
时 继续 执行 计算 。 设 备 完成 后 ， 安 排 设备 通知 处 理 器 ， 以 便 处 理 器 可 以 处 理 设备 。 顾 名 思 
义 ， 硬 件 会 暂时 中 断 正在 进行 的 计算 以 处 理 UO。 一 旦 设备 被 服务 完 ， 处 理 器 就 会 正确 地 从 
它 被 中 断 的 地 方 开始 恢复 计算 。 

在 实践 中 ， 中 断 驱 动 的 WO 要 求 计 算 机 系统 的 所 有 方面 都 设计 为 支持 中 断 ， 包 括 : 

e JI/O 设备 硬件 。 

e 总 线 架构 和 功能 。 

e 处 理 器 架构 。 

e 编程 范式 。 

IO 设备 硬件 。 不 仅仅 是 在 处 理 器 的 控制 下 操作 ， 中 断 驱 动 的 IO 设备 一 旦 启动 就 必须 
独立 操作 。 稍 后 ， 当 它 完 成 时 ， 设 备 必 须 能 够 中 断 处 理 器 。 

总 线 架 构 和 功能 。 总 线 必须 支持 双向 通信 ， 人 允许 处 理 器 在 设备 上 启动 操作 ， 并 人 允许 设备 
在 操作 完成 时 中 断 处 理 器 。 

处 理 器 架构 。 处 理 器 需要 一 种 机 制 ， 可 以 使 处 理 吉 临时 暂停 正常 计算 ， 处 理 设备 ， 然 后 
恢复 计算 。 

编程 范式 。 也 许 最 显著 的 变化 包含 编程 范式 的 转变 。 轮 询 使 用 顺序 的 同步 编程 风格 ， 程 
序 员 在 其 中 指定 IO 设备 执行 的 每 个 操作 步 又 。 正 如 我 们 将 在 下 一 章 中 看 到 的 ， 中 断 驱 动 编 
程 使 用 了 一 种 异步 编程 风格 ， 程 序 员 要 编写 代码 来 处 理事 件 。 


16.11 中 断 机 制 和 取 指 - 执行 
正如 术语 “中 断 ”所 暗示 的 那样 ， 设 备 事件 是 临时 的 。 当 设备 需要 服务 时 (例如 ， 当 操 
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作 完 成 时 ), 设备 中 的 硬件 通过 总 线 向 处 理 右 发 送 中 断 信 和 号。 处 理 器 临时 停止 执行 指令 ， 保 
存 稍 后 恢复 执行 所 需 的 状态 信息 ， 并 处 理 设备 。 处 理 完 中 断后 ， 处 理 器 重新 加 载 保存 的 状 
态 ， 并 在 中 断 发 生 处 重新 恢复 执行 。 总 结 如 下 : 


PA 









处 和 NS i 
从 应 用 程序 员 的 角度 来 看 ， 中 断 是 透明 的 ， 这 意味 着 程序 员 编 写 应 用 程序 代码 就 好 像 中 
断 不 存在 一 样 。 如 果 在 执行 指令 期 间 没 有 发 生 中 断 、 发 生 一 次 中 断 或 者 发 生 许多 中 断 则 硬件 
设计 为 计算 结果 都 是 相同 的 。 
IO 硬件 如 何 中 断 处 理 器 ? 实际 上 ,设备 只 需要 请 求 服务 。 中 断 通过 修改 的 取 指 一 执行 
周期 来 实现 ,该 周期 允许 处 理 器 响应 请 求 。 如 算法 16.1 所 解释 的 ， 在 执行 两 条 指令 之 间 发 
生 中 断 。 





算法 16.1 处理 中 断 的 取 指 - 执行 周期 
无 限 循环 { 
检测 : 如 果 任 何 设备 已 请 求 中 断 ， 则 处 理 中 断 ， 然 后 继续 循环 的 下 一 次 迭代 
取 指 : 从 程序 保存 的 位 置 处 ， 访 问 下 一 个 步骤 
执行 : 执行 程序 的 步骤 





16.12 ”处 理 中断 


想 要 处 理 中 断 ， 处 理 器 硬件 需要 采取 如 图 16.5 所 示 的 5 个 步骤 
保存 和 恢复 状态 最 容易 理解 : 当 发 生 中 断 


时 (通常 在 内 存 中 ) 硬件 可 以 保存 信息 ， 并 且 er 
来 自 中 断 指令 的 特殊 返回 操作 将 重新 加 载 保存 “ 确定 哪个 设备 发 出 中 断 。 
的 状态 。 在 某 些 体系 结构 中 ， 硬 件 会 保存 完整 * 调用 处 理 该 设备 的 方法 。 
的 状态 信息 ， 包 括 所 有 通用 寄存 器 的 内 容 。 在 





* 重 载 当前 执行 状态 。 


其 他 体系 结构 中 ， 硬 件 会 保存 指令 计数 器 等 基 
本 信息 ， 并 要 求 软件 显 式 地 保存 和 恢复 值 ， 例 图 16.5 处理 器 硬件 处 理 中 断 时 执行 的 5 个 步 
如 通用 寄存 器 。 在 任何 情况 下 ,保存 和 恢复 状 又 ， 这 些 步骤 对 程序 员 来 说 是 隐藏 的 
态 都 是 对 称 操作 一 一 硬件 被 设计 为 使 得 从 中 断 

返回 的 指令 重新 加 载 与 中 断 发 生 时 硬件 保存 的 完全 相同 的 状态 信息 。 我 们 说 处 理 器 在 处 理 中 
断 时 临时 切换 执行 上 下 文 。 


16.13 中断 向 量 


处 理 器 如 何 知道 哪个 设备 正在 中 断 ? 现在 已 经 使 用 了 几 种 机 制 。 例 如 ， 某 些 体系 结构 使 
用 专用 协 处 理 器 来 处 理 所 有 IO。 要 启动 设备 ， 处 理 器 会 向 协 处 理 器 发 送 请 求 。 当 设备 需要 
服务 时 ， 协 处 理 器 会 检测 到 情况 并 中 断 处 理 器 。 

大 多 数 体系 结构 使 用 总 线 上 的 控制 信号 来 通知 处 理 器 何 时 需要 中 断 。 处 理 器 在 取 指 一 执 
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行 周期 的 每 次 迭代 中 检查 总 线 。 当 它 检测 到 中 断 请 求 时 ， 处 理 器 中 的 中 断 硬件 通过 总 线 发 送 
一 个 特殊 命令 来 确定 哪个 设备 需要 服务 。 总 线 被 设计 为 一 次 只 有 一 个 设备 可 以 响应 。 通 常情 
况 下 ， 每 台 设备 都 分 配 一 个 唯一 的 号 码 ， 设 备 通过 给 出 号 码 进行 响应 。 

分 配给 设备 的 号 码 不 是 随机 的 。 相 反 ， 数 字 的 配置 方式 允许 处 理 器 硬件 将 该 数字 解释 为 
指向 内 存 中 保留 位 置 的 指针 数组 的 索引 。 数 组 中 的 一 个 条 目 称 为 中 断 向 量 ， 是 指向 处 理 设 
备 的 软件 的 指针 ; 我 们 说 中 断 是 向 量化 的 。 该 软件 称 为 中 断 处 理 程序 。 图 16.6 显示 了 数据 


结构 。 
服务 3 号 设备 的 
处 理 程序 
服务 2 号 设备 的 
处 理 程序 
服务 1 号 设备 的 
处 理 程序 


服务 0 号 设备 的 
处 理 程 








内 存 中 的 中 断 向 量 








图 16.6 ”内存 中 的 中 断 向 量 示意 图 。 每 个 向 量 指向 设备 的 中 断 处 理 程序 


图 16.6 显示 了 最 简单 的 中 断 向 量 排列 ， 其 中 每 个 物理 设备 被 分 配 一 个 唯一 的 中 断 向 量 。 
实际 上 ， 设 计 用 于 容纳 许多 设备 的 计算 机 系统 通常 使 用 一 种 变 体 ， 其 中 多 个 设备 共享 一 个 公用 
的 中 断 向 量 。 发 生 中 断后 ， 中 断 处 理 程序 中 的 代码 再 次 使 用 总 线 来 确定 哪个 物理 设备 引起 中 
断 。 一 旦 确定 了 物理 设备 ， 处 理 程序 就 会 选择 适合 设备 的 交互 。 在 多 个 器 件 之 间 共 享 中 断 向 量 
的 主要 优势 来 自 可 扩展 性 一 一 具有 一 组 固定 中 断 向 量 的 处 理 器 可 以 容纳 任意 数量 的 设备 。 


16.14 中断 初 始 化 和 禁用 中 断 


如 何在 中 断 向 量 表 中 初始 化 值 ? 软件 必须 初始 化 中 断 向 量 ， 因 为 处 理 器 和 设备 硬件 都 不 
会 输入 或 修改 表格 。 相 反 ， 硬 件 盲目 地 认为 中 断 向 量 表 已 被 初始 化 一 一 当 发 生 中 断 时 ， 处 理 
右 保 存 状 态 ， 使 用 总 线 请 求 向 量 号 ， 将 该 值 用 作 向 量 表 中 的 索引 ， 然 后 分 支 跳 转 到 该 地 址 的 
代码 。 无 论 在 向 量 中 找到 哪个 地 址 ， 处 理 器 都 会 跳 转 到 该 地 址 并 尝试 执行 该 指令 。 

为 了 确保 在 表 被 初始 化 之 前 没有 中 断 发 生 ， 大 多 数 处 理 器 以 禁用 中 断 的 模式 启动 。 也 就 
是 说 ， 处 理 器 继续 运行 取 指 - 执行 周期 而 不 检查 中 断 。 之 后 ， 一 旦 软件 (通常 是 操作 系统 ) 
初始 化 了 中 断 向 量 ， 软 件 必 须 执行 一 个 明确 允许 中 断 的 专门 指令 。 在 许多 处 理 器 中 ， 中 断 状 
态 由 处 理 器 的 模式 控制 ; 当 处 理 器 从 初始 启动 模式 变 为 适合 执行 程序 的 模式 时 ， 中 断 会 自动 
启用 。 


16.15 ”中断 一 个 中 断 处 理 程序 
一 旦 中 断 发 生 且 中 断 处 理 程序 正在 运行 ， 如 果 另 一 个 设备 准备 就 绪 并 请 求 中 断 ， 会 发 生 
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什么 情况 ? 最 简单 的 硬件 遵循 一 个 简单 的 策略 : 一 旦 中 断 发 生 ， 进 一 步 的 中 断 会 自动 禁用 ， 
直到 当前 的 中 断 完成 并 返回 。 因 而 不 会 发 生 混乱 。 

最 复杂 的 处 理 器 提供 多 级 中 断 机 制 ， 也 称 为 多 中 断 优 先 级 。 每 个 设备 都 被 分 配 一 个 中 断 
优先 级 ， 通 常 在 1 到 7 的 范围 内 。 在 任何 给 定 的 时 间 ， 处 理 器 都 被 认为 是 以 某 一 级 优先 级 运 
行 。 优 先 级 0 表示 处 理 器 当前 不 处 理 中 断 ( 即 正 在 运行 应 用 程序 ) ; 大 于 零 的 优先 级 N 意味 
着 处 理 器 当前 正在 处 理 来 自 一 个 设备 的 中 断 ， 该 设备 的 优先 级 被 赋予 N。 

规则 如 下 : 

，。 当 处 理 器 正在 优先 级 天 上 操作 时 ， 它 只 能 被 具有 优先 级 K+1 或 者 更 高 优先 级 的 设备 
时 请 和 es 

请 注意 ， 当 优先 级 为 天 的 中 断 发 生 时 ， 优 先 级 为 天 或 更 低 的 中 断 不 会 发 生 。 结 果 是 在 

每 个 优先 级 级 别 上 最 多 可 以 有 一 个 中 断 正 在 进行 。 


16.16 中断 的 配置 


我 们 说 每 个 设备 都 必须 分 配 一 个 中 断 向 量 和 (可 能 的 ) 中 断 优先 级 。 设 备 中 的 人 硬件 和 处 
理 器 上 运行 的 软件 必须 对 分 配 达成 一 致 一 一 当 设备 返回 中 断 向 量 号 时 ， 相 应 的 中 断 向 量 必 须 
指向 设备 的 处 理 程序 。 

中 断 分 配 如 何 进行 ? 已 经 使 用 了 两 种 方法 : 

e 仅 用 于 小 型 符 和 人 式 系统 的 手动 分 配 。 

e 在 大 多 数 计算 机 系统 上 使 用 的 自动 分 配 。 

手动 分 配 。 一 些小 型 嵌入 式 系统 仍然 使 用 这 种 方法 ， 这 种 方法 曾经 在 早期 的 计算 机 中 使 
用 过 : 计算 机 所 有 者 通过 手动 方法 配置 硬件 和 软件 。 例 如 ， 某 些 设备 是 在 电路 板 上 使 用 物 
理 开关 制造 的 ， 开关 用 于 输入 中 断 向 量 地 址 。 当 然 ， 操 作 系 统 必须 配置 为 与 设备 选择 的 值 
匹配 。 

自动 分 配 。 自 动 的 中 断 向 量 分 配 是 最 广泛 使 用 的 方法 ， 因 为 它 消除 了 手动 配置 ， 并 允许 
在 不 需要 修改 硬件 的 情况 下 安装 设备 。 计 算 机 启动 时 ， 处 理 器 使 用 总 线 来 确定 连接 了 哪些 
设备 。 处 理 咒 为 每 个 设备 分 配 一 个 中 断 向 量 号 ， 将 适当 的 设备 处 理 程序 软件 的 副本 放 人 内 存 
中 ,并 在 内 存 中 构建 中 断 向 量 。 当 然 ， 自 动 分 配 意味 着 启动 计算 机 时 延迟 较 长 。 


16.17 ”动态 的 总 线 连接 和 可 插 拔 设备 


我 们 对 总 线 和 中 断 配置 的 描述 是 假设 在 计算 机 断 电 时 ， 设 备 连接 到 总 线 ， 中 断 向 量 在 启 
动 时 分 配 ， 并 且 所 有 设备 在 计算 机 运行 时 保持 原 位 。 早 期 的 总 线 确实 是 按照 我 们 所 描述 的 设 
计 的 。 然 而 ， 最 近 的 总 线 已 经 被 设计 为 在 计算 机 运行 时 允许 设备 连接 和 断 开 。 我 们 说 这 样 的 
总 线 支 持 可 插 拔 设备 。 例 如 ， 通 用 串 行 总 线 (USB) 允许 用 户 随时 插入 设备 。 

USB 如 何 操作 ? 本 质 上 ，USB 在 计算 机 的 主 总 线 上 显示 为 单个 设备 。 当 计算 机 启动 
时 ，USB 像 往常 一 样 被 分 配 一 个 中 断 向 量 号 ， 并 且 处 理 程序 被 放置 在 内 存 中 。 之 后 ， 当 用 
户 插入 新 设备 时 ，USB 硬件 会 生成 中 断 ， 处 理 器 将 执行 处 理 程序 。 反 过 来 ， 处 理 程序 又 通 
过 USB 总 线 发 送 请 求 ， 询 问 设备 并 确定 哪个 设备 已 连接 。 一 旦 识别 出 该 设备 ，USB 处 理 程 
序 将 加 载 一 个 从 属 的 特定 设备 的 处 理 程序 。 当 一 个 设备 需要 服务 时 ， 该 设备 请 求 中 断 。USB 
处 理 程序 接收 中 断 ， 确 定 哪个 设备 请 求 中 断 ， 并 将 控制 权 交 给 特定 设备 的 处 理 程序 。 
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16.18 ” 中断、 性 能 和 智能 设备 


为 什么 中 断 机 制 会 导致 计算 机 体系 结构 的 革命 ? 答案 很 简单 。 首 先 ，IO 是 计算 必须 优 
化 的 一 个 重要 方面 。 其 次 ， 中 断 驱 动 的 IO 自动 重 秋 计算 和 1/O， 而 不 需要 程序 员 采 取 任 何 
特殊 的 行动 。 也 就 是 说 ， 中 断 自动 适应 任何 速度 的 处 理 器 和 IO 设备。 由 于 程序 员 不 需要 估 
计 在 IO 操作 期 间 可 以 执行 多 少 条 指令 ， 所 以 中 断 永远 不 会 低估 或 高 估 。 我 们 可 以 总 结 如 下 : 


te 
任意 速度 的 处 理 器 自动 适应 任意 速度 的 1/O 设 各 


有 趣 的 是 ， 一 旦 发 明了 基本 中 断 机 制 ， 架 构 师 意识 到 可 以 进一步 改进 。 要 了 解 这 些 改 
进 ， 考 虑 磁盘 设备 。 底 层 硬件 需要 几 个 步骤 才能 从 磁盘 读 取 数据 ， 并 将 其 放 和 人 内 存 中 。 图 
16.7 总 结 了 这 些 步骤 。 











“ 如果 磁 盘 不 旋转 ， 将 其 全 速 运行 。 
* 计算 包含 请 求 块 的 柱 面 ， 并 将 磁 臂 移动 到 柱 面 上 。 
* 等 待 磁盘 旋转 到 正确 的 扇 区 。 


“ 从 磁盘 上 的 块 中 读 取 数据 字 节 并 将 它们 放 和 人 硬件 先进 先 出 (FIFO) 队列 中 。 
“将 FIFO 中 的 数据 字 节 传输 到 内 存 中 。 





图 16.7 ”从 磁盘 设备 读 取 块 所 需 的 步骤 示例 


早期 的 硬件 要 求 处 理 器 通过 开始 操作 并 等 待 中 断 来 处 理 每 个 步骤 。 例 如 ， 处 理 器 必须 验 
证 磁盘 是 否 在 旋转 。 如 果 磁 盘 空 闲 ， 处 理 器 必须 发 出 启动 马达 的 命令 并 等 待 中 断 。 

关键 的 见解 是 ，I/O 设备 包含 的 数字 逻辑 越 多 ， 设 备 需要 依赖 处 理 器 的 就 越 少 。 非 正式 
地 ， 架 构 师 使 用 术语 吓 设 备 来 指 代 需 要 处 理 器 处 理 每 个 步骤 的 设备 ， 而 术语 智能 设备 则 用 来 
表征 可 自行 执行 一 系列 步骤 的 设备 。 智 能 版 本 的 磁盘 设备 包含 足够 的 逻辑 (甚至 可 能 是 嵌入 
式 处 理 器 ) 来 处 理 读 取 块 所 涉及 的 所 有 步骤 。 因 此 ， 智 能 设备 不 会 经 常 中 断 ， 也 不 需要 处 理 
器 来 处 理 每 一 步 。 图 16.8 列 出 了 处 理 器 和 智能 磁盘 设备 之 间 的 交互 示例 。 


“处理 器 使 用 总 线 向 磁盘 发 送 内 存 中 的 位 置 并 请 求 读 取 操作 。 


“磁盘 设备 执行 所 有 必需 的 步 又， 包括 将 字 节 移 人 内 存 ， 并 在 操作 完成 后 才 会 中 断 。 





图 16.8 ” 读 取 磁盘 块 时 处 理 器 和 智能 磁盘 设备 之 间 的 交互 


我 们 对 设备 交互 的 讨论 忽略 了 许多 细节 。 例 如 ， 大 多 数 IO 设备 检测 并 报告 错误 ( 例 
如 ， 磁 盘 不 旋转 或 盘面 上 的 缺陷 阻止 硬件 读 取 磁盘 块 )。 因 此 ， 中 断 处 理 比 描述 更 为 复杂 : 
发 生 中 断 时 ， 处 理 器 必须 询问 与 磁盘 相关 的 CSR， 以 确定 操作 是 成 功 还 是 发 生 错 误 。 此 外 ， 
对 于 报告 软 错误 ( 即 临 时 错误 ) 的 设备 ， 处 理 器 必须 重 试 该 操作 以 确定 错误 是 临时 的 还 是 永 
久 的 。 


16.19 直接 内 存 访问 


上 面 的 讨论 意味 着 智能 IO 设备 可 以 在 不 使 用 CPU 的 情况 下 将 数据 传输 到 内 存 中 。 实 
际 上 ， 这 种 传输 不 仅 是 可 行 的 ， 而 且 是 高 速 IO 的 关键 。 人 允许 IO 设备 与 内 存 交 互 的 技术 称 
为 直接 内 存 访问 (DMA)。 
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要 理解 DMA， 回 想 一 下 在 大 多 数 体系 结构 中 ， 内 存 和 IO 设备 都 连接 到 中 央 总 线 。 因 
此 ，LIO 设备 和 内 存 之 间 有 直接 的 路 径 。 如 果 我 们 想象 一 个 智能 IO 设备 包含 一 个 嵌入 式 处 
理 器 ,那么 DMA 背后 的 想法 应 该 是 清楚 的 : IO 设备 中 的 散人 入 式 处 理 器 会 发 出 提取 或 保存 
请 求 ， 内 存 响应 这 些 请 求 。 当 然 ， 总 线 设计 必须 能 够 让 多 个 处 理 器 〈 每 个 智能 设备 中 的 主 处 
理 器 和 肉 入 式 处 理 器 ) 轮流 共享 总 线 ， 并 防止 它们 同时 发 送 多 个 请 求 。 如 果 总 线 支 持 这 种 机 
制 ， 则 IO 设备 可 以 在 不 使 用 处 理 器 的 情况 下 在 内 存 和 设备 之 间 传 输 数据 。 

总 结 一 下 : 





16.20 ”用 缓冲 链 扩展 DMA 


看 起 来 ， 使 用 DMA 的 智能 设备 足以 保证 高 性 能 : 数据 可 以 在 设备 和 内 存 之 间 传 输 ， 无 须 
使 用 处 理 器 ， 并 且 设 备 不 会 中 断 每 一 步 的 操作 。 但 是 ， 已 经 发 现 进一步 提高 性 能 的 优化 方法 。 

要 了 解 如 何 改进 DMA ， 请 考虑 高 速 网 络 。 数 据 包 倾向 于 以 签 集 形式 从 网 络 中 到 达 ， 这 
意味 着 一 组 数据 包 紧 接着 到 达 ， 连 续 的 数据 包 之 间 时 间 间 隔 最 短 。 如 果 网 络 接口 设备 使 用 
DMA， 则 设备 将 在 接受 传人 数据 包 并 将 数据 包 放 入 内 存 后 中 断 处 理 器 。 处 理 器 必须 为 下 一 
个 数据 包 指定 缓冲 区 的 位 置 并 重新 启动 设备 。 事 件 序列 必须 快速 发 生 〈 即 在 下 一 个 数据 包 到 
达 之 前 )。 不 幸 的 是 ， 系 统 上 的 其 他 设备 也 可 能 产生 中 断 ， 这 意味 着 处 理 器 可 能 会 稍微 延迟 。 
对 于 最 高 速 网 络 ， 处 理 器 可 能 无 法 及 时 服务 中 断 ， 以 捕获 下 一 个 数据 包 。 

为 了 解决 紧 接 到 达 的 问题 ,一 些 智能 IO 设备 使 用 一 种 称 为 缓冲 链 的 技术 。 处 理 器 分 配 
多 个 缓冲 区 ， 并 在 内 存 中 创建 链表 。 处 理 器 然后 将 链表 传递 给 IO 设备 ， 并 人 允许 设备 填充 每 
个 缓冲 区 。 由 于 智能 设备 可 以 使 用 总 线 从 内 存 中 读 取 值 ， 设 备 可 以 顺 着 链表 ， 将 传人 的 数据 
包 放 和 人 连续 的 缓冲 区 中 。 图 16.9 说 明了 这 个 概念 。 


传递 给 设备 的 地 址 一 一 一 | 9 | 呈 


数据 缓冲 区 1 数据 缓冲 区 2 数据 缓冲 区 3 


图 16.9 缓冲 链 的 示意 图 。 处 理 器 传递 一 个 缓冲 链表 给 智能 IO 设备 ,设备 填充 链表 上 的 每 一 
个 缓冲 区 ， 而 不 用 等 待 处 理 器 


上 面 给 出 的 网 络 示例 描述 了 用 于 高 速 输入 的 缓冲 链 的 使 用 。 缓 冲 链 也 可 用 于 输出 : 处 理 
器 将 数据 放 入 一 组 缓冲 区 中 ,链接 列表 中 的 缓冲 区 ， 将 链接 地 址 传递 给 智能 I/O 设备 ， 然 后 
启动 设备 。 设 备 在 列表 中 移动 ， 从 内 存 中 的 每 个 缓冲 区 获取 数据 并 将 数据 发 送 到 设备 。 
16.21 分 散 读 操作 和 聚集 写 操 作 

缓冲 链 对 软件 使 用 的 缓冲 区 小 于 IO 设备 使 用 的 数据 块 的 大 小 的 计算 机 系统 特别 有 用 。 











日 尽管 该 图 显示 了 三 个 缓冲 区 ,但 网 络 设备 通常 使 用 32 或 64 个 缓冲 区 的 链 。 
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在 输入 时 ， 链 式 缓冲 区 允许 设备 将 大 量 数据 传输 分 成 一 组 较 小 的 缓冲 区 。 在 输出 时 ， 链 式 缓 
冲 区 人 允许 设备 从 一 组 小 缓冲 区 中 提取 数据 并 将 数据 组 合成 一 个 单独 的 块 。 例 如 ， 某 些 操作 系 
统 通过 将 数据 包头 放 在 一 个 缓冲 区 中 并 将 数据 包装 载 到 另 一 个 缓冲 区 中 来 创建 网 络 数据 包 。 
缓冲 链 人 允许 操作 系统 发 送 数据 包 ， 而 无 须 将 所 有 字 节 复制 到 单个 大 型 缓冲 区 中 。 

我 们 使 用 术语 分 散 读 来 描述 将 大 块 输入 数据 划分 成 多 个 小 缓冲 区 的 想法 ， 用 术语 聚集 写 
来 描述 将 来 自 多 个 小 缓冲 区 的 数据 组 合成 单个 输出 块 的 想法 。 当 然 ， 要 使 缓冲 链 有 用 ， 输 出 
缓冲 区 的 链表 必须 指定 每 个 缓冲 区 的 大 小 〈《 即 要 写 入 的 字 节 数 )。 同 样 ， 输 入 缓冲 区 的 链表 
必须 包含 一 个 长 度 字段 ， 设 备 可 以 设置 该 长 度 字段 以 指定 在 缓冲 区 中 存储 多 少 字 节 。 


16.22 操作 链 


尽管 缓冲 链 可 以 处 理 在 多 个 缓冲 区 上 重复 给 定 操作 的 情况 ,但 是 在 设备 可 以 执行 多 个 操 
作 的 情况 下 可 以 进一步 优化 。 要 理解 这 个 ， 请 考虑 一 个 磁盘 设备 ， 它 可 以 在 各 个 块 上 提供 
读 取 和 写 入 操作 。 为 了 优化 性 能 ,我 们 需要 在 当前 操作 完成 后 立即 开始 另 一 个 操作 。 不 幸 的 
是 ,这 些 操作 是 读 写 的 混合 。 

用 于 毫 无 延迟 地 开始 新 操作 的 技术 称 为 操作 链 。 像 缓冲 链 一 样 ， 使 用 操作 链 的 处 理 器 必 
须 在 内 存 中 创建 链表 ， 并 且 必 须 将 列表 传递 给 智能 设备 。 然 而 ， 与 缓冲 链接 不 同 ， 链 表 上 的 
节点 指定 了 一 个 完整 的 操作 : 除了 缓冲 区 指针 外 ， 该 节点 还 包含 一 个 操作 和 必要 的 参数 。 例 
如 ， 与 磁盘 一 起 使 用 的 链表 上 的 节点 可 能 会 指定 读 取 操作 和 磁盘 块 。 图 16.10 说 明了 操作 链 。 
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图 16.10 一 个 智能 设备 的 操作 链 的 示意 图 。 每 个 节点 制定 了 一 个 操作 (R 或 者 W)、 磁 盘 块 数 
量 以 及 在 内 存 中 的 缓冲 区 


16.23 ”小结 


可 以 使 用 两 种 范式 来 处 理 IO 设备 : 可 编程 的 IO 和 中 断 驱 动 的 IO。 可 编程 的 IO 需 
要 处 理 器 通过 轮 询 设备 来 处 理 操作 的 每 个 步骤 。 由 于 处 理 器 比 IO 设备 快 得 多 ， 处 理 器 花费 
很 多 周期 来 等 待 设备 。 

第 三 代 计 算 机 引入 了 中 断 驱 动 的 TO， 人 允许 设备 在 通知 处 理 器 之 前 执行 完整 的 操作 。 使 
用 中 断 的 处 理 器 包含 额外 的 硬件 ， 每 次 执行 一 个 取 指 - 执行 周期 时 都 会 测试 一 次 ， 以 查看 是 
否 有 任何 设备 请 求 了 中 断 。 

中 断 是 向 量 的， 这 意味 着 中 断 设 备 提供 了 一 个 唯一 的 整数 ， 处 理 器 将 其 用 作 指 向 处 理 程 
序 指针 数组 的 索引 。 为 保证 中 断 不 会 影响 正在 运行 的 程序 ， 硬 件 会 在 中 断 期 间 保存 并 恢复 状 
态 信息 。 多 级 中 断 用 于 使 某 些 设 备 优先 级 高 于 其 他 设备 。 

智能 IO 设备 包含 额外 的 逻辑 ， 无 须 处 理 器 的 帮助 即 可 执行 一 系列 步骤 。 智 能 设备 使 用 
缓冲 链 和 操作 链 技术 来 进一步 优化 性 能 。 
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习题 

16.1 假设 一 个 RSIC 处 理 器 花费 2 毫秒 来 执行 每 一 条 指令 ， 而 且 IO 设备 在 其 中 断 请 求 被 响应 之 前 ， 
最 多 能 等 待 1 毫秒 。 禁 用 中 断 时 可 以 执行 的 最 大 指令 数 是 多 少 ? 

16.2 列 出 并 解释 两 种 IO 范式 。 

16.3” 写 出 缩写 CSR 的 全 称 ， 并 解释 它 的 含义 。 

16.4 一 名 软件 工程 师 正 在 尝试 调试 设备 驱动 程序 ， 并 发 现 似 乎 是 无 限 循环 的 代码 : 
while (*csrptr->tstbusy != 0) 

; /* 不 执行 任何 操作 */ 

当 软 件 工程 师 向 你 显示 代码 时 ， 你 如 何 回应 ? 

16.5 阅读 总 线 上 的 设备 以 及 分 配给 每 个 设备 的 中 断 优先 级 。 磁 盘 或 鼠标 是 否 具有 更 高 的 优先 级 ? 为 
什么 ? 

16.6 在 大 多 数 系统 中 ， 部 分 或 全 部 设备 驱动 程序 代码 必须 用 汇编 语言 编写 。 为 什么 ? 

16.7 从 概念 上 讲 ， 中 断 向 量 是 什么 数据 结构 ?可 以 在 中 断 向 量 的 每 个 条 目 中 找到 什么 ? 

16.8 ”使 用 链 式 操作 的 设备 最 显著 的 优势 是 什么 ? 

16.9 中 断 相 对 于 轮 询 的 主要 优势 是 什么 ? 

16.10 假设 一 个 用 户 将 10 台 全 部 执行 DMA 的 设备 安装 到 一 台 计 算 机 上 ， 并 试图 同时 操作 这 些 设备 。 
计算 机 中 的 哪些 组 件 可 能 会 成 为 瓶颈 ? 

16.11 ”如果 智 能 磁盘 设备 使 用 DMA， 并 且 磁 盘 上 的 块 每 个 都 包含 512 字 节 ， 那 么 当 处 理 器 传输 2048 
字 节 (四 个 独立 的 块 ) 时 ， 磁 盘 会 中 断 多 少 次 ? 

16.12” 当 设备 使 用 链 时 ,设备 驱动 程序 在 内 存 中 放置 什么 类 型 的 数据 结构 ， 用 于 保存 给 设备 的 一 组 
命令 ? 
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17.1 引言 


前 面 的 章节 涵盖 了 计算 机 输入 /输出 的 硬件 层面 ， 解 释 了 用 于 互 连 设备 、 处 理 器 和 内 存 
的 总 线 架 构 ， 以 及 外 部 设备 在 一 项 操作 完成 时 用 于 通知 处 理 右 的 中 断 机 制 。 

本 章 将 视角 转向 软件 ， 并 从 一 个 程序 员 的 角度 来 考虑 输入 / 输出。 本 章 既 会 分 析 用 于 控 
制 设备 所 需 的 软件 ， 也 会 介绍 使 用 输入 /输出 设备 的 应 用 软件 。 我 们 将 带 你 理解 设备 驱动 的 
重要 概念 ， 并 了 解 驱动 程序 是 如 何 实现 读 写 等 操作 的 。 我 们 将 获知 设备 的 两 个 大 类 : 面向 字 
节 的 设备 和 面向 块 的 设备 。 我 们 也 将 带 你 理解 设备 间 的 交互 使 用 。 

尽管 只 有 很 少 的 程序 员 会 编写 设备 驱动 程序 ， 但 理解 设备 驱动 程序 的 工作 方式 及 低级 输 
入 /输出 的 发 生 方 式 可 以 帮助 程序 员 编 写 更 高 效 的 应 用 程序 。 一 旦 我 们 了 解 了 设备 驱动 程序 
的 工作 机 制 ， 我 们 将 会 重点 关注 缓冲 的 概念 ， 并 了 解 为 什么 使 用 缓冲 对 程序 员 很 重要 。 


17.2 设备 驱动 程序 的 定义 

之 前 的 章节 解释 了 基本 的 硬件 中 断 机 制 。 现 在 让 我 们 来 思考 ， 底 层 软件 是 如 何 使 用 中 断 
机 制 来 实现 输入 /输出 操作 的 。 我 们 使 用 术语 “设备 驱动 程序 ”来 指 代 在 应 用 程序 和 外 部 硬 
件 设备 间 提 供 接口 的 软件 。 在 大 多 数 情况 下 ,计算 机 系统 为 每 个 外 部 硬件 设备 配 有 设备 驱动 
程序 ， 并 且 所 有 不 同 的 应 用 程序 通过 同样 的 驱动 程序 访问 给 定 的 设备 。 通 常情 况 下 ， 设 备 驱 
动 程序 是 计算 机 操作 系统 的 一 部 分 ， 这 代表 运行 在 计算 机 上 的 任何 应 用 程序 在 与 设备 通信 时 
都 要 使 用 设备 驱动 程序 。 

鉴于 设备 驱动 程序 了 解 特定 硬件 设备 的 细节 ， 因 此 可 以 说 驱动 程序 包含 低级 代码 。 驱 动 
程序 通过 总 线 与 设备 进行 交互 ， 它 “理解 ”设备 的 控制 和 状态 寄存 器 (CSR)， 并 处 理 来 自 设 
备 的 中 断 。 


17.3 设备 的 独立 、 封 装 和 隐藏 


设备 驱动 程序 存在 的 主要 目的 是 设备 的 独立 性 。 也 就 是 说 ， 设 备 驱动 方法 会 将 应 用 程序 
中 的 所 有 硬件 细节 都 剔除 掉 ， 并 将 它们 归 人 驱动。 

为 了 理解 设备 的 独立 性 为 何 重要 这 个 问题 ， 我 们 需要 了 解 早期 软件 的 构建 方式 。 当 时 ， 
每 个 应 用 程序 都 是 为 特定 品牌 的 计算 机 、 特 定 的 内 存 大 小 以 及 特定 的 输入 /输出 设备 集 而 设 
计 的 。 应 用 程序 包含 了 用 于 通过 总 线 与 特定 设备 通信 的 所 有 代码 。 不 幸 的 是 ， 为 使 用 特定 设 
备 集 所 编写 的 程序 不 能 用 于 任何 其 他 的 设备 。 例 如 ， 将 打印 机 升级 到 新 的 型 号 需要 重新 编写 
所 有 的 应 用 程序 。 

设备 驱动 程序 通过 为 应 用 程序 提供 独立 的 设备 接口 来 解决 上 述 问题 。 例 如 ， 由 于 所 有 使 
用 打印 机 的 应 用 程序 都 依赖 于 打印 机 的 设备 驱动 程序 ， 应 用 程序 无 须 掌 握 硬件 的 具体 技术 
细节 。 因 此 ， 在 更 换 打印 机 时 只 需 变更 设备 驱动 程序 ， 而 所 有 的 应 用 程序 保持 不 变 。 这 就 是 
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说 ,设备 驱动 程序 向 应 用 程序 隐藏 了 硬件 细节 ， 即 ,设备 驱动 程序 封装 了 硬件 细节 。 
总 结 一 下 : 


设备 驱动 程序 由 理解 并 处 理 与 特定 设备 进行 通信 的 所 有 低级 细节 的 软件 组 成 。 由 
RT i 






17.4 设备 驱动 程序 的 概念 应 用 程序 


设备 驱动 程序 包含 了 多 个 必须 协同 工作 的 功 由 应 用 触发 
的 上 半 部 分 


能 ,包括 通过 总 线 进行 通信 的 代码 、 人 处 理 设备 细节 
的 代码 以 及 与 应 用 程序 进行 交互 的 代码 。 此 外 ， 设 
备 驱 动 程序 必须 与 计算 机 操作 系统 进行 交互 。 为 了 
控制 复杂 度 ， 程 序 员 将 驱动 程序 分 为 三 个 部 分 : 

e 下 半 部 分 ， 由 中 断 发 生 时 调用 的 处 理 程序 








组 成 。 
e。 上 半 部 分 ， 由 请 求 输入 /输出 操作 时 应 用 程 
ti 


e 一 组 共享 变量 ， 用 于 保存 状态 信息 ， 这 些 
信息 用 于 协调 这 两 部 分 。 
上 半 部 分 和 下 半 部 分 的 名 字 反 映 了 编写 设备 驱 





由 中 断 触 发 
的 下 半 部 分 


动 程序 的 程序 员 的 观点 : 硬件 是 低层 的 ， 应 用 程序 设备 硬件 

是 高 层 的 。 因 此 ， 在 程序 员 的 观点 中 ， 应 用 程序 位 ”图 17.1 设备 驱动 程序 从 概念 上 可 以 划分 

于 顶层 ， 而 硬件 位 于 底层 。 图 17.1 展示 了 程序 员 为 三 部 分 。 设 备 驱动 程序 提供 了 

的 视角 。 运行 在 高 层 的 应 用 程序 和 运行 在 
低层 的 设备 硬件 之 间 的 接口 

17.5 两 类 设备 


为 了 能 够 更 深入 地 理解 设备 驱动 程序 ， 我 们 需要 对 硬件 提供 给 驱动 程序 的 接口 有 更 多 的 
了 解 。 基 于 设备 使 用 的 接口 风格 ,设备 可 以 分 为 两 大 类 : 

。 面向 字符 的 设备 。 

e 面向 块 的 设备 。 

面向 字符 的 设备 每 次 只 传送 单个 字 节 的 数据 。 例 如 ， 将 键盘 连接 到 计算 机 的 串 行 接口 ， 
在 每 次 按键 时 ， 只 传送 一 个 字符 (这 里 指 字 节 )。 从 设备 驱动 程序 的 角度 来 看 ， 面 向 字符 的 
设备 在 每 次 发 送 或 接收 一 个 字符 时 都 产生 一 次 中 断 一 一 发 送 或 接收 一 个 由 NN 个 字符 组 成 的 块 
会 产生 NN 次 中 断 。 

面向 块 的 设备 每 次 传送 整个 块 的 数据 。 在 某 些 情况 下 ， 底 层 硬 件 会 指定 块 大 小 B， 所 有 
的 块 必 须 有 和 且 仅 有 B 字 节 。 例 如 ， 磁 盘 设 备 定义 的 块 大 小 等 于 磁盘 的 扇 区 大 小 。 然 而 在 其 他 
情况 下 ， 块 的 大 小 是 可 变 的 。 例 如 ， 网 络 接口 定义 的 块 大 小 和 数据 包 一 样 大 (尽管 它 给 数据 
包 的 大 小 设 定 了 上 限 ,但 数据 包 交 换 硬件 允许 数据 包 大 小 不 同 )。 从 设备 驱动 程序 的 角度 来 
看 ， 面 向 块 的 设备 仅 在 发 送 或 接受 块 时 产生 一 次 中 断 。 
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17.6 设备 驱动 程序 的 示例 流程 


编写 设备 驱动 程序 的 具体 细节 超出 本 文 的 讨论 范围 。 然 而 ， 为 了 帮助 我 们 理解 这 个 概 
念 ， 我 们 将 考虑 驱动 程序 如 何 处 理 基本 输出 。 在 示例 中 ， 我 们 将 假设 应 用 程序 通过 因特网 
发 送 数据 。 应 用 程序 指定 要 发 送 的 数据 ， 协 议 软件 创建 包 ， 向 网 络 设备 的 驱动 程序 发 送 包 。 
图 17.2 说 明了 传送 包 涉 及 的 模块 ， 并 列 出 了 输出 所 需 的 步骤。 


计算 机 


采取 的 步骤 


1. 应 用 程序 通过 网 络 发 送 数据 。 

2. 协 议 软件 将 数据 包 传送 给 驱动 程序 。 

3. 驱 动 程序 把 输出 数据 包 存 储 在 共享 变量 中 。 
4. 上 半 部 分 指定 数据 包 位 置 并 启动 设备 。 
5. 上 半 部 分 返回 协议 模块 。 

6. 协 议 软件 返回 应 用 程序 。 

7. 设 备 中 断 ， 驱 动 程序 的 下 半 部 分 执行 。 
8. 下 半 部 分 将 数据 包 从 共享 变量 中 删除 。 





外 部 硬件 


图 17.2 ”应 用 程序 请 求 输出 操作 的 步骤 简化 示例 。 位 于 操作 系统 中 的 设备 驱动 程序 处 理 与 该 设 
备 相关 的 所 有 通信 


如 图 17.2 所 示 ， 即 使 是 很 简单 的 操作 也 需要 很 复杂 的 一 串 步骤 。 当 应 用 程序 发 送 数据 
时 ， 应 用 进程 进入 操作 系统 ， 同 时 控制 权 转 移 给 创建 包 的 协议 软件 。 协 议 软件 则 反 过 来 向 适 
当 的 设备 驱动 程序 的 上 半 部 分 传递 输出 数据 包 。 设 备 驱动 程序 把 数据 包 置 于 共享 变量 部 分 ， 
启动 执行 数据 包 传 输 的 设备 ， 并 返回 到 协议 软件 ， 进 而 返回 应 用 进程 。 

尽管 控制 权 已 经 从 操作 系统 归还 ， 但 输出 数据 包 依旧 保存 在 共享 变量 数据 区 域 中 ， 设 备 
可 以 使 用 DMA 访问。 一旦 设备 完成 数据 包 的 发 送 ， 设备 将 产生 中 断 同 时 控制 权 转 移 到 下 半 
部 分 。 随 后 下 半 部 分 从 共享 区 域 移 出 数据 包 。 
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17.7 输出 操作 队列 


虽然 示例 驱动 程序 中 的 设计 是 可 行 的 ， 但 这 种 方法 在 生产 系统 中 效率 过 低 。 尤 其 ， 如 果 
我 们 的 应 用 程序 在 设备 的 前 一 数据 包 发 送 完成 之 前 就 发 送 下 一 数据 包 ， 则 设备 驱动 程序 必须 
轮 询 ， 直 到 设备 使 用 完 数据 包 。 为 了 
避免 等 待 ， 生 产 系统 中 使 用 的 设备 驱 
动 程序 实现 了 一 个 请 求 队列 。 在 输出 
时 ， 上 半 部 分 无 须 等 待 设备 准备 就 绪 。 
相反 地 ， 上 半 部 分 把 要 写 入 的 数据 存 
入 队列 中 ， 确 保 设 备 将 产生 中 断 ， 并 
返回 应 用 程序 。 之 后 ， 当 设备 完成 当 
前 的 操作 并 产生 一 次 中 断 时 ， 下 半 部 


分 从 队列 中 取出 下 一 请 求 ， 启 动 设备 ， 。 图 173 使 用 请 求 队列 的 设备 驱动 程序 的 概念 组 织 结 


,A 





ei 构 。 输 出 时 ， 上 半 部 分 只 需 将 项 存 人 请 求 队列 
1 中 ， 而 无 须 等 待 设备 ， 下 半 部 分 控制 设备 
使 用 输出 队列 的 设备 驱动 程序 非 
常 优雅 一 一 请 求 队列 提供 了 驱动 程序 初始 化 (计算 机 系统 启动 时 ) 
上 下 两 部 分 之 间 的 协作 。 图 17.4 列 出 1. 将 输入 队列 初始 化 为 空 。 
ed ; ye 上 半 部 分 (应 用 程序 执行 写 入 操作 时 ) 
了 在 给 出 时 设备 驱动 程序 的 上 下 丙 1 ns 
部 分 需要 完成 的 步骤 。 2. 使 用 CSR (控制 和 状态 寄存 器 ) 请 求 中 断 。 
如 图 17.4 所 示 ， 设 备 驱 动 程序 的 3. 返回 到 应 用 程序 。 


上 下 两 部 分 的 步骤 都 很 简单 。 值 得 注 下 半 部 分 
意 的 是 ， 下 半 部 分 执行 大 部 分 工作 : 1. 如 果 队 列 为 空 ， 请 停止 设备 中 断 。 


2. 如 果 队 列 非 空 ， 则 从 队列 中 取出 一 个 项 并 开始 输出 。 
除了 需要 处 理 来 自 设备 的 中 断 ， 下 半 3. 从 中 断 返 回 。 


部 分 还 要 检查 队列 ， 而 且 在 队列 非 空 
的 情况 下 取出 下 一 项 并 启动 设备 。 由 图 17.4 使 用 队列 实现 输出 操作 时 ,设备 驱动 程序 的 上 





于 设备 每 完成 一 项 操作 即 产 生 一 次 中 半 部 分 和 下 半 部 分 的 步骤 。 上 半 部 分 请 求 中 
断 ， 下 半 部 分 在 执行 每 次 输出 操作 时 断 ， 但 不 会 在 设备 上 开始 输出 


都 会 被 调用 ， 这 使 得 设备 可 以 开始 下 
一 操作 。 因 此 ， 下 半 部 分 将 被 持续 调用 直到 队列 为 空 。 

在 最 后 一 个 项 从 队列 中 移出 后 会 发 生 什 么 呢 ? 下 半 部 分 在 最 后 一 次 输出 操作 完成 后 会 被 
调用 ， 但 会 发 现 队列 为 空 。 此 时 ， 设 备 将 闲置 。 为 了 防止 无 用 的 中 断 ， 下 半 部 分 会 控制 设备 
停止 所 有 中 断 。 稍 后 ， 当 应 用 程序 调用 上 半 部 分 并 将 新 项 置 人 队列 中 时 ， 上 半 部 分 将 再 次 启 
动 设备 中 断 ， 输 出 也 将 继续 进行 。 


17.8 强制 设备 发 出 中 断 


由 于 请 求 队 列 在 设备 驱动 程序 中 使 用 广泛 ， 因 此 工程 师 们 设计 了 可 以 很 好 地 与 图 17.4 
中 所 示 的 编程 范式 协同 工作 的 硬件 。 特 别 是 一 个 设备 通常 包含 一 个 CSR 位 ， 使 得 处 理 器 可 
以 设置 强制 设备 发 出 中 断 。 回 想 第 16 章 ， 设 置 CSR 位 所 需 的 代码 十 分 简单 。 它 只 由 一 个 单 
独 的 赋值 语句 组 成 。 软 件 不 需要 检查 当前 的 设备 状态 。 相 反 ， 如 果 设 备 已 经 处 于 活动 状态 ， 
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该 机 制 的 设计 将 使 得 该 位 的 设置 不 起 作用 : 

e 设备 有 一 个 CSR 位 B， 用 于 强制 设备 发 出 中 断 。 

e 如 果 设 备 空 闪 ,设置 位 B 将 会 导致 设备 产生 一 个 中 断 。 

e 如 果 设 备 当 前 正在 执行 操作 ,设置 位 B 将 不 起 作用 。 

换 句 话 说， 如 果 当 前 操作 完成 时 ， 有 中 断 已 经 发 生 ， 设 备 将 等 待 操作 完成 并 如 常 产生 中 
断 ; 如 果 没 有 操作 正在 执行 ， 设 备 会 立即 生成 中 断 。 上 述 概念 〈 合 理 安排 硬件 使 得 在 操作 完 
成 之 前 设置 的 CSR 位 不 会 影响 正在 工作 的 设备 ) 极 大 地 简化 了 编程 。 要 明白 为 什么 ， 请 查 
看 图 17.4 列 出 的 步骤 。 上 半 部 分 不 需要 了 解 设备 是 否 繁忙 ( 即 操作 是 否 在 进行 中 )。 相 反 ， 
上 半 部 分 总 是 设置 CSR 位 。 如 果 操 作 正在 进行 中 ， 设 备 硬件 会 忽略 这 些 设置 了 的 位 ， 并 等 
待 操作 完成 。 如 果 设 备 空闲 ， 把 该 位 置 1 将 导致 设备 立即 发 出 中 断 ， 这 将 强制 下 半 部 分 选取 


队列 中 的 下 一 个 请 求 并 启动 设备 。 


17.9 输入 操作 队列 


设备 驱动 程序 也 可 以 使 用 输入 队列 。 但 
是 ， 额 外 的 协调 是 需要 的 ， 基 于 以 下 两 个 原 
因 。 首 先 ， 在 应 用 程序 准备 好 读 取 输入 ( 例 
如 ， 用 户 键入 ) 之 前 ， 将 设备 驱动 程序 配置 
好 以 接受 输入 。 因 此 ， 在 设备 初始 化 时 ， 输 
入 队列 必须 创建 好 。 其 次 ， 如 果 在 应 用 程 
序 读 取 之 前 ， 输 入 没有 到 来 ， 则 设备 驱动 程 


初始 化 (计算 机 系统 启动 时 ) 
1. 将 输入 队列 初始 化 为 空 。 
2. 强制 设备 发 出 中 断 。 
上 半 部 分 (应 用 程序 执行 读 取 时 ) 
1. 如 果 输 入 队列 为 空 ， 则 暂时 停止 应 用 程序 。 


2. 从 输入 队列 中 取出 下 一 个 项 。 
3. 将 项 返回 到 应 用 程序 。 

下 半 部 分 (中 断 发 生 时 ) 
1. 如 果 队 列 未 满 ， 请 启动 另 一 个 输入 操作 。 
2. 如 果 应 用 程序 停止 ， 请 允许 应 用 程序 运行 。 
3. 从 中 断 返 回 。 





序 必须 临时 阻塞 应 用 程序 ， 直 到 输入 到 达 。 


图 17.5 列 出 了 设备 驱动 程序 在 有 队列 时 用 来 ”图 17.5 使 用 队列 时 的 设备 驱动 程序 的 上 半 部 


处 理 输入 的 步骤 。 分 和 下 半 部 分 实现 输入 操作 的 步骤 。 
虽然 我 们 对 设备 驱动 程序 的 描述 忽略 了 上 半 部 分 暂时 阻塞 应 用 程序 ， 直 到 数 
许多 细节 ， 但 它 给 出 了 设备 驱动 程序 使 用 的 据 可 用 


一 般 方法 的 准确 描述 。 我 们 可 以 总 结 一 下 : 


二 
ena 四 






17.10 异步 设备 驱动 程序 和 互 斥 

在 第 16 章 中 ， 我 们 说 中 断 机 制 意 味 着 一 个 异步 编程 模型 。 我 们 现在 可 以 理解 其 原因 。 
像 传统 程序 一 样 ， 轮 询 是 同步 的 ， 因 为 控制 会 从 头 到 尾 地 通过 代码 。 而 处 理 中 断 的 设备 驱动 
程序 是 异步 的 ， 因 为 程序 员 对 于 响应 不 同 的 事件 编写 了 单独 的 代码 段 。 当 应 用 程序 请 求 TO 
时 ， 它 会 调用 上 半 部 分 中 的 例 程 。 当 发 生 IO 操作 或 发 生 中 断 时 ， 下 半 部 分 中 的 例 程 会 被 调 
用 。 在 设备 启动 时 ， 初 始 化 部 分 的 例 程 将 被 调用 。 

异步 编程 比 同步 编程 更 具 挑战 性 。 因 为 事件 可 以 以 任意 顺序 发 生 ， 所 以 程序 员 必 须 使 用 
共享 变量 来 对 当前 的 计算 状态 ( 即 过 去 发 生 的 事件 及 其 影响 ) 进行 编码 表示 。 测 试 异 步 程序 
很 困难 ， 因 为 程序 员 无 法 轻松 控制 事件 的 顺序 。 更 重要 的 是 ,在 处 理 器 和 设备 硬件 上 运行 的 
应 用 程序 可 以 同时 生成 事件 。 同 时 发 生 的 事件 会 使 编写 异步 设备 驱动 程序 变 得 尤为 困难 。 例 
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如 ， 考 虑 使 用 命令 链 的 智能 设备 。 处 理 器 在 内 存 中 创建 一 个 操作 链表 ， 并 且 该 设备 将 自动 按 
照 列表 顺序 执行 操作 。 

程序 员 必 须 协 调处 理 器 和 智能 设备 之 间 的 交互 。 为 了 理解 其 原因 ， 请 想象 一 个 智能 设备 
从 列表 中 取出 项 的 同时 ， 驱 动 程序 的 上 半 部 分 正在 添加 项 。 如 果 智 能 设备 到 达 列 表 的 末尾 并 
恰好 在 设备 驱动 程序 添加 新 项 之 前 停止 处 理 ， 那 么 就 会 出 现 问题 。 同 样 地 ， 如 果 两 个 独立 的 
硬件 试图 同时 操纵 列表 中 的 指针 ， 链 接 就 可 能 会 失效 。 

为 避免 同时 访问 造成 的 错误 ， 与 智能 设备 存在 交互 的 设备 驱动 程序 必须 实现 互 斥 。 也 就 
是 说 ， 设 备 驱动 程序 必须 确保 智能 设备 在 列表 更 改 完成 之 前 不 能 访问 列表 ， 智 能 设备 也 必须 
确保 设备 驱动 程序 在 列表 更 改 完成 之 前 不 能 访问 列表 。 有 很 多 种 方案 可 用 于 确保 独占 访问 。 
例如 ， 某 些 设 备 具有 特殊 的 CSR 值 ， 处 理 器 可 以 设置 该 值 以 临时 停止 该 设备 访问 命令 列表 。 
其 他 系统 有 一 个 可 以 允许 处 理 器 临时 限制 总 线 使 用 的 设施 (如果 智能 设备 不 能 使 用 总 线 ， 它 
就 不 能 更 改 内 存 中 的 列表 )。 最 后 ， 一 些 处理 器 提供 了 可 用 于 提供 互 斥 的 测试 并 设置 的 指令 。 


17.11 从 应 用 程序 看 MO 

前 几 节 描述 了 如 何 编写 设备 驱动 程序 。 我 们 之 前 说 过 ， 很 少 有 程序 员 编写 过 设备 驱动 程 
序 。 因 此 ，CSR 地 址 、 中 断 向 量 和 请 求 队列 的 细节 对 于 多 数 的 程序 员 来 说 依旧 是 隐藏 的 。 我 
们 需要 考虑 设备 驱动 程序 和 底层 IO 的 动机 是 基于 如 下 背景 : 它 有 助 于 我 们 理解 如 何 有 效 地 
创建 使 用 底层 服务 的 应 用 程序 。 

由 于 程序 员 倾向 于 使 用 高 级 语言 ， 因 此 很 少 有 程序 员 直 接 调用 低级 IO 设施 一 一 为 表示 
0 程序 员 使 用 编程 语言 提供 的 抽象 。 例 如 ， 应 用 程序 很 少 使 用 磁盘 设备 。 相 反 ， 编 

言 或 底层 系统 为 程序 员 提 供 了 高 级 文件 的 抽象 。 同 样 ， 大 多 数 系统 并 不 需要 程序 员 接 触 

ee 

重点 是 : 


下痢 多 各 
屏 ) 进行 操作 ， 而 只 需 操 人 : ee ' 

即使 在 允许 应 应 用 程序 员 控制 VO 设备 的 嵌入 起 系统 中 ， 软件 通常 设计 为 向 程序 员 隐藏 尽 
可 能 多 的 细节 。 特 别 是 应 用 程序 只 能 指定 通用 的 高 级 IO 操作 。 当 编译 器 将 程序 翻译 成 用 于 
特定 计算 机 的 二 进 制 形式 时 ， 编 译 器 会 将 每 个 高 级 IO 操作 映射 为 一 系列 低级 步骤。 

有 趣 的 是 ， 典 型 的 编译 器 不 会 将 每 个 IO 操作 直接 转换 为 一 系列 基本 的 机 器 指令 。 相 
反 ， 编 译 器 会 生成 可 以 调用 库 函 数 来 执行 IO 操作 的 代码 。 因 此 ， 在 程序 执行 之 前 ， 它 必须 
与 相应 的 库 函 数 相 结合 。 

我 们 使 用 术语 “运行 时 库 ” 来 指 代 一 组 包含 已 编译 的 程序 的 库 函 数 。 当 然 ， 编 译 器 和 运 
行 时 库 设计 为 一 起 工作 一 一 编译 器 必须 知道 哪些 函数 可 用 、 每 个 函数 使 用 的 确切 参数 以 及 函 
数 的 含义 。 


”应 用 程序 员 很 少 直接 与 设备 动 程序 进行 交互 。 相 反 ， 他 们 依靠 运行 时 库 来 充当 中 介 。 


使 用 运行 时 库 作为 中 介 的 主要 优势 来 自 灵 活性 以 及 易于 改变 。 只 有 运行 时 库 函 数 才能 理 
解 如 何 使 用 底层 IO 机 制 ( 即 设备 驱动 程序 )。 如 果 IO 硬件 或 设备 驱动 程序 发 生 改 变 ， 则 只 
需要 更 新 运行 时 库 一 一 编译 器 可 以 保持 不 变 。 实 际 上 ， 将 运行 时 库 与 编译 器 分 开 人 允许 只 将 代 
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码 编译 一 次 ， 继 而 与 各 种 运行 时 库 结 合 使 用 ， 为 多 个 版 本 的 操作 系统 生成 映像 。 


17.12 库 / 操 作 系 统 二 元 论 


我 们 知道 设备 驱动 程序 驻 留 在 操作 系 
统 中 ， 而 应 用 程序 用 来 执行 IO 的 运行 时 _。 ”运行 时 库 
库 函 数 驻 留 在 操作 系统 之 外 (因为 它们 与 函数 的 接口 
应 用 程序 相 链 接 )。 从 概念 上 讲 ， 我 们 想象 i 
设备 硬件 上 的 三 层 软 件 ， 如 图 17.6 所 示 。 操作 系统 中 JJO。 。 

我 们 会 有 几 个 疑问 。 每 层 软 件 提供 哪 函数 的 接口 


些 服务 ”应 用 程序 和 运行 时 库 之 间 的 接口 


或 者 运行 时 库 和 操作 系统 之 间 的 接口 是 什 






么 ? 使 用 这 两 个 接口 的 相对 开销 是 什么 ? id 
图 17.6 ”应 用 程序 代码 、 运 行 时 库 代码 以 及 标 有 接 

17.13 ”操作 系统 支持 的 MO 操作 口 的 设备 驱动 程序 之 间 概 念 上 的 布置 

我 们 首先 检查 运行 时 库 和 操作 系统 之 
间 的 接口 。 在 诸如 C 语言 这 样 的 低级 编程 准备 设备 ， 以 供 使 用 (例如 ， 接 通电 源 ) 
语言 中 ， 操 作 系统 接口 可 直接 供应 用 程序 将 数据 从 设备 传输 到 应 用 程序 
使 用 。 因 此 ， 程 序 员 可 以 选择 使 用 IO 库 将 数据 从 应 用 程序 传输 到 设备 
或 直接 进行 操作 系统 调用 9 。 终止 使 用 设备 

尽管 1O 操作 的 确切 细节 依赖 于 操作 人 





其 他 控制 功能 ( 例如 ， 改 变 音 量 ) 


系统 ， 但 通用 方法 是 很 普及 的 。 该 方法 称 
为 “打开 / 读 取 / 写 人 /关闭 ”范式 ， 提 供 图 17.7 六 个 基本 的 IO 功能 ， 包括 “打开 / 读 取 / 
了 六 个 基本 功能 。 图 17.7 列 出 了 UNIX 操 写 信 /关闭 ”范式 ,这 些 名 字 取 自 UNIX 
作 系 统 使 用 的 函数 名 称 及 其 含义 。 操作 系统 

例如 ， 考 虑 一 个 可 以 读 取 或 写 和 人 数字 
视频 光盘 (DVD) 的 设备 。 打 开 (open) 函数 可 用 于 启动 驱动 马达 并 确保 光盘 已 插入 。 一旦 
驱动 器 启动 后 ， 读 取 (read) 函数 可 用 于 从 光盘 读 取 数 据 ， 写 人 (write) 函数 可 用 于 将 数 
据 写 和 光盘。 寻找 ( seek) 函数 可 以 用 于 移动 到 一 个 新 的 位 置 (例如 ， 一 个 特定 的 视频 段 )， 
关闭 (close) 函数 可 以 用 来 关闭 光驱 。 最 后 ， 控 制 (ioct1) 函数 (IO 控制 的 缩写 ) 可 用 
于 所 有 其 他 功能 (例如 ， 弹 出 功能 )。 

当然 ， 每 个 操作 都 需要 指定 细节 的 参数 。 例 如 ， 写 入 操作 需要 指定 要 使 用 的 设备 、 数 据 
的 位 置 以 及 要 写 和 的 数据 量 的 参数 。 更 重要 的 是 ， 设 备 驱 动 程序 必须 了 解 如 何 将 每 个 操作 和 
参数 映射 到 底层 设备 上 的 操作 。 例 如 ， 当 驱动 程序 接收 到 诸如 弹出 的 控制 操作 时 ， 驱 动 程序 
必须 知道 如 何 使 用 设备 硬件 执行 操作 (例如 ， 如 何 设置 设备 的 CSR 寄存 器 的 值 )。 


17.14 ”1/O 操作 的 成 本 


当 应 用 程序 调用 运行 时 库 的 函数 时 ， 成 本 与 调用 函数 完全 相同 ， 因 为 在 构建 程序 时 将 库 
函数 的 代码 副本 合并 到 了 应 用 程序 中 。 因 此 ， 调 用 库 函 数 的 成 本 相对 较 低 。 


日 后 面 的 部 分 讨论 了 与 C 语 言 一 起 使 用 的 标准 IO 库 。 
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但 是 ， 当 应 用 程序 或 运行 时 库 函 数 触发 一 个 IO 操作 ， 如 读 取 或 写 入 ， 控 制 必须 通过 系 
统 调 用 ?传递 给 操作 系统 中 相应 的 设备 驱动 程序 。 不 幸 的 是 ， 通 过 系统 调用 触发 操作 系统 函 
数 会 产生 极 高 的 开销 。 有 三 个 原因 。 首 先 ， 处 理 器 必须 变更 权限 模式 ， 因 为 操作 系统 需要 用 
比 应 用 程序 更 高 的 权限 运行 。 其 次 ， 处 理 器 必须 改变 地 址 空间 ， 从 应 用 程序 的 虚拟 地 址 空间 
变更 为 操作 系统 的 地 址 空间 。 第 三 ， 处 理 器 必须 在 应 用 程序 的 地 址 空间 和 操作 系统 的 地 址 空 
间 之 间 复 制 数 据 。 

我 们 可 以 总 结 一 下 : 


和 





更 重要 的 是 ， 系 统 调用 的 大 部 分 开销 与 调用 本 身 相关 ， 而 不 是 与 驱动 程序 执行 的 工作 相 
关 。 因 此 ,为 了 优化 性 能 ， 程 序 员 们 想方设法 地 想 最 小 化 系统 调用 的 次 数 。 


17.15 减少 系统 调用 的 开销 


要 理解 如 何 减 少 系统 调用 的 开销 ， 我 们 来 考虑 一 个 最 坏 情况 下 的 例子 。 假 设 某 应 用 程 
序 需要 打印 一 个 文档 ， 并 假设 打印 需要 该 应 用 程序 将 总 共 N 字 节 的 数据 发 送 到 打印 机 。 如 
果 该 应 用 程序 传输 每 个 字 节 的 数据 时 ， 就 进行 一 次 单独 的 系统 调用 ， 则 会 产生 最 高 的 成 本 ， 
因为 应 用 程序 会 进行 Y 次 系统 调用 。 作 为 一 个 替代 ， 如 果 应 用 程序 生成 一 个 完整 的 文本 行 ， 
然后 进行 一 次 系统 调用 以 传输 这 整 行 ， 则 开销 将 从 YX 个 系统 调用 减少 为 工 个 系统 调用 ， 其 
中 工 是 文档 中 的 行 数 (也 就 是 说 , 工 小 于 N)。 

我 们 可 以 进一步 减少 打印 一 个 文档 的 开销 吗 ? 是 的 ， 我 们 可 以 。 可 以 重新 设计 应 用 程 
序 ， 使 得 它 可 以 分 配 足 够 的 内 存 来 存放 文档 中 的 的 整个 页 面 ， 生 成 页 面 ， 然 后 进行 一 次 系 
统 调 用 以 将 整个 页 面 传输 到 设备 驱动 程序 。 结 果 是 ， 应 用 程序 只 进行 己 次 系统 调用 ， 其 中 己 
是 文档 中 的 页 数 (大 概 是 ,已 远 小 于 N)。 

这 里 可 以 提出 一 个 通用 原则 : 





当然 ， 并 不 是 总 可 以 减少 用 于 LO 的 系统 调用 的 数量 。 例 如 ， 像 文本 编辑 器 或 电子 邮件 
编辑 器 这 样 的 应 用 程序 ， 会 在 用 户 输入 字符 时 显示 字符 。 这 类 应 用 程序 不 能 等 到 用 户 输入 
整 行文 本 或 整个 页 面 才 显示 ， 因 为 每 个 字符 都 必须 立即 显示 在 屏幕 上 。 类 似 地 ， 来 自 键盘 的 
输入 通常 需要 程序 每 次 都 接收 一 个 字符 ， 而 不 能 等 待 用 户 输入 整 行 或 页 面 后 再 接收 。 幸 运 的 
是 ,这样 的 应 用 程序 通常 涉及 用 户 交 互 ，IO 相对 较 慢 ， 所 以 优化 并 不 重要 。 


17.16 ”缓冲 的 关键 概念 


上 面 的 讨论 表明 ， 应 用 程序 员 可 以 通过 重 写 代码 ,使 系统 调用 的 次 数 更 少 ， 以 优化 1 
O 的 性 能 。 优 化 对 于 高 速 IO 非常 重要 ， 它 已 纳入 大 多 数 计算 机 软件 中 。 程 序 员 无 须 重 写 代 
码 ，1/O 运行 时 库 已 被 设计 出 来 ， 可 以 自动 处 理 优 化 。 


日 一 些 计算 机 体系 结构 使 用 术语 陷入 代替 系统 调用 。 
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我 们 使 用 术语 “缓冲 ”来 描述 在 IO 传输 之 前 累积 数据 的 概念 ， 术 语 “ 缓 冲 区 ” 则 指 的 















和 Se 险 尽 可 大 量 的 数 : i NE 

为 了 实现 缓冲 自动 化 ， 库 例 程 需要 一 个 适用 于 任何 应 用 程序 的 方案 。 因 此 ， 库 函数 不 使 
用 行 或 者 页 ， 而 是 使 用 固定 大 小 的 缓冲 区 。 为 了 利用 缓冲 ， 应 用 程序 必须 调用 库 函 数 而 非 操 
作 系 统 函 数 。 对 于 包含 内 建 IO 机 制 的 编程 语言 ， 运 行 时 库 实 现 了 缓冲 ， 编 译 器 可 以 生成 调 
用 相应 库 例 程 的 代码 ; 对 于 不 包含 内 建 UVO 机 制 的 编程 语言 ， 程 序 员 必须 调用 缓冲 库 的 例 程 ， 
而 非 系 统 调用 。 

实现 缓冲 的 库 例 程 通常 提供 图 17.8 列 出 的 五 个 
概念 性 操作 。 

图 178 中 列 出 的 操作 与 操作 系统 提供 的 设备 接口 。 | ee。 。 | 入 近 从 
类 似 。 事 实 上 ， 我们 将 看 到 至 少 有 一 个 缓冲 VO 库 的 terminate | 停止 使 用 缓冲 区 
实现 使 用 打开 、 读 取 、 写 人 和 关闭 的 变 体 函数 名 称 。 i 强制 写 人 缓冲 区 的 内 容 
图 17.8 使 用 一 组 替代 术语 来 帮助 阐明 两 者 的 区 别 。 图 178 由 典型 库 提供 的 概念 性 操作 ， 


17.17 缓冲 输出 的 实现 该 库 提供 缓冲 1O 


要 理解 缓冲 如 何 工作 ， 考 虑 一 个 使 用 如 图 17.8 所 示 的 缓冲 输出 函数 的 应 用 程序 。 当 应 
用 程序 开始 时 ， 它 首先 会 调用 setup 函数 来 初始 化 缓冲 。 一 些 实现 会 提供 一 个 参数 ， 人 允许 
应 用 程序 指定 缓冲 区 大 小 ; 在 其 他 实现 中 ， 缓 冲 区 的 大 小 是 一 个 固定 不 变 的 常数 。 不 管 情 
况 如 何 ， 我 们 将 假设 setup 函数 分 配 了 一 个 缓冲 区 ， 并 将 该 缓冲 区 初始 化 为 空 。 一 旦 缓冲 
区 完成 初始 化 ， 应 用 程序 就 可 以 调用 output 函数 来 传输 数据 。 在 每 次 调用 时 ， 应 用 程序 
会 提供 一 个 或 多 个 字 节 的 数据 。 最 后 ， 当 数据 传输 完毕 时 ， 应 用 程序 将 调用 terminate 也 
数 。( 注 : 后 面 的 部 分 会 描述 flush 函数 的 使 用 。) 

实现 缓冲 输出 所 需 的 代码 量 是 微不足道 的 。 图 17.9 描述 了 用 于 实现 每 个 输出 函数 的 步 
又 。 在 诸如 C 这 样 的 编程 语言 中 ， 每 一 步 都 可 以 用 一 两 行 代码 来 实现 。 





setup 初始 化 缓冲 区 
input 执行 输入 操作 





setup(N) 
1. 分 配 一 个 N 字 节 的 缓冲 区 。 
2. 创建 一 个 全 局 指针 P， 并 将 p 初始 化 为 缓冲 区 中 第 一 个 字 节 的 地 址 。 
output(D) 
1. 将 一 个 字 节 的 数据 D 放 在 缓冲 区 中 指针 p 指向 的 位 置 ， 并 使 p 指向 
缓冲 区 中 的 下 一 个 字 节 。 


2. 如 果 缓 冲 区 已 满 ， 则 进行 一 次 系统 调用 以 将 整个 缓冲 区 的 内 容 写 人 
输出 设备 ， 并 将 指针 p 重 置 ， 使 之 指向 缓冲 区 的 起 始 位 置 。 
terminate 
1. 如 果 缓 冲 区 不 为 空 ， 则 进行 一 次 系统 调用 ， 把 指针 p 指向 的 位 置 之 
前 的 这 部 分 缓冲 区 的 内 容 写 入 输出 设备 。 
2. 如 果 缓 冲 区 是 动态 分 配 的 ， 则 将 它 释 放 掉 。 





图 17.9 实现 缓冲 输出 的 步骤 
日 典型 的 缓冲 区 大 小 从 8KB 到 128KB 不 等 ， 具 体 取决 于 计算 机 系统 。 
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现在 ，terminate 困 数 的 存在 动机 已 经 显而易见 了 : 因为 是 缓冲 输出 ， 所 以 当 应 用 程 
序 结束 时 ,缓冲 区 可 能 是 部 分 充满 的 。 因 此 ， 应 用 程序 必须 强制 写 人 缓冲 区 剩余 的 内 容 。 


17.18 清空 缓冲 区 


看 起 来 ， 输 出 缓冲 不 能 用 于 某 些 应 用 程序 。 例 如 ， 考 虑 一 个 允许 两 个 用 户 通 过 计算 机 网 
络 进行 通信 的 应 用 程序 。 当 应 用 程序 发 出 一 条 消息 时 ， 它 假定 该 消息 将 被 发 送 ， 并 传递 到 另 
一 端 。 不 幸 的 是 ， 如 果 使 用 了 缓冲 ， 消 息 就 可 能 会 在 缓冲 区 中 等 待 而 不 被 发 送 。 

当然 ， 程 序 员 可 以 重 写 一 个 应 用 程序 ， 在 内 部 缓冲 数据 并 直接 进行 系统 调用 。 但 是 ， 通 
用 缓冲 库 的 设计 人 员 设 计 了 一 种 方法 ， 人 允许 使 用 缓冲 IO 的 应 用 程序 指定 何 时 需要 进行 系统 
调用 。 该 机 制 由 fush 函数 构成 ， 即 使 缓冲 区 未 满 ， 应 用 程序 也 可 以 调用 flush 函数 以 强制 
数据 发 送 。 程 序 员 使 用 词汇 “清空 缓冲 区 ”来 描述 这 一 强制 输出 未 满 缓冲 区 中 内 容 的 过 程 。 
如 果 应 用 程序 调用 fush 函数 时 ， 缓 冲 区 为 空 ， 则 该 调用 不 起 作用 。 但 是 ， 如 果 缓 冲 区 包含 
数据 ， 则 flush 函数 会 进行 系统 调用 以 写 数据 ， 然 后 重 置 全 局 指针 ， 指 示 缓 冲 区 为 空 。 图 
17.10 列 出 了 清空 操作 的 步骤 。 


fush 
1. 如 果 缓 冲 区 为 空 ， 则 不 采取 任何 行动 直接 返回 给 调用 者 。 


2. 如 果 缓 冲 区 不 为 空 ， 则 进行 系统 调用 以 将 缓冲 区 的 内 容 写 人 输 
出 设备 ， 并 将 全 局 指针 p 设置 为 缓冲 区 的 第 一 个 字 节 的 地 址 。 
图 17.10 在 缓冲 IO 库 中 实现 ush 函数 所 需 的 步 又 。ftush 允许 应 用 程序 在 缓冲 区 满 之 前 强 
制 把 数据 写 人 输出 设备 


一 下 图 17.9 给 出 的 terminate 图 数 的 实现 。 如 果 库 提供 了 fush 函数 ， 则 可 以 
通过 调用 fush 函数 来 取代 terminate 函数 的 第 一 个 步骤 。 
总 结 一 下 : 








17.19 缓冲 输入 


上 面 的 描述 解释 了 缓冲 如 何 与 输出 一 起 使 用 。 在 很 多 情况 下 ,缓冲 也 可 以 用 来 减少 输入 
的 开销 。 要 了 解 如 何 做 ,请 考虑 按 顺 


个 应 setup(N) 
me ne 1. 分配 一 个 N 字 节 的 缓冲 区 。 





取 X 字 节 的 数据 ， 每 次 读 取 一 个 字 节 ， 2. 创建 一 个 全 局 指针 p， 并 初始 化 p， 指 示 缓冲 区 为 空 
则 应 用 程序 将 进行 N 次 系统 调用 。 input(N) 

假设 底层 设备 允许 传输 多 个 字 节 1. 如 果 缓 冲 区 为 空 ， 则 进行 系统 调用 ， 填 充 整个 缓冲 区 ， 

并 设置 指针 p 指向 缓冲 区 的 开始 。 

的 数据 ， 则 可 以 使 用 雪 种 来 减少 系统 2. 从 缓冲 区 中 指针 指向 的 位 置 取出 一 个 字 节 D， 并 使 
调用 的 次 数 。 应 用 程序 (或 运行 时 库 ) 指向 缓冲 区 中 的 下 一 个 字 节 ， 然 后 将 D 返回 给 调用 者 。 
可 以 分 配 一 个 大 的 缓冲 区 ， 进 行 一 次 terminate 
系统 调用 以 填 满 缓冲 区 ， 然 后 满足 组 1. 如 果 缓 冲 区 是 动态 分 配 的 ， 则 将 它 释 放 掉 。 


冲 区 的 后 续 请 求 。 图 17.11 列 出 了 所 图 17.11 实现 缓冲 输入 所 需 的 步 又 


和 锚 17 荚 寻 序 员 视 房 的 迹 备 、 输 入 / 扒 出 和 组 站 209 


需 的 步骤 。 与 输出 缓冲 一 样 ， 输 入 缓冲 的 实现 也 很 简单 。 在 诸如 C 这 样 的 语言 中 ， 每 一 步 
都 可 以 用 很 少量 的 代码 来 实现 。 


17.20 缓冲 的 效率 

为 什么 缓冲 如 此 重要 ?因为 即使 是 一 个 很 小 的 缓冲 区 也 会 对 IO 的 性 能 产生 很 大 的 影 
响 。 要 明白 为 什么 ,请 注意 ， 当 使 用 缓冲 IO 时 ， 每 个 缓冲 区 只 需要 一 次 系统 调用 ?。 因 此 ， 
大 小 为 YX 字 节 的 缓冲 区 将 系统 调用 的 次 数 缩小 了 X 倍 。 因 此 ， 如 果 一 个 (没有 缓冲 区 的 ) 应 
用 程序 需要 进行 5 次 系统 调用 ， 那 么 一 个 大 小 仅 为 8KB 的 缓冲 区 都 可 以 把 系统 调用 的 次 数 
减少 至 5S/ 8192。 

缓冲 不 止 存在 于 运行 时 库 中 。 该 技术 非常 重要 ,设备 驱动 程序 通常 都 要 实现 缓冲 。 例 
如 ， 在 某 些 磁盘 的 驱动 程序 中 ， 它 在 内 存 中 保存 了 磁盘 块 的 副本 ， 并 允许 应 用 程序 读 或 写 磁 
盘 块 中 的 数据 。 当 然 ， 在 操作 系统 中 ,缓冲 并 不 能 减少 系统 调用 。 但 是 ， 这 种 缓冲 确实 会 提 
高 性 能 ， 因 为 外 部 数据 的 传输 比 系统 调用 要 慢 。 重 要 的 一 点 是 ， 当 开销 较 高 的 操作 可 以 被 开 
销 较 低 的 操作 所 取代 时 ,缓冲 可 用 于 减少 IO 的 开销 。 

我 们 可 以 总 结 出 缓冲 的 重要 性 : 


ep ss 
与 投 恒 六 0 机 机 之 同 的 是 让 ; 人 


17.21 与 缓存 的 关系 


缓冲 与 第 12 章 介绍 的 高 速 缓存 概念 密切 相关 。 它 们 的 主要 区 别 在 于 项 的 访问 方式 : 高 
速 缓存 系统 针对 随机 访问 进行 了 优化 ， 而 缓冲 系统 针对 顺序 访问 进行 了 优化 。 

本 质 上 ， 高 速 缓存 存储 的 是 已 被 引用 过 的 项 ， 而 缓冲 存储 的 则 是 将 要 被 引用 的 项 〈 假 定 
为 顺序 引用 )。 因 此 ， 在 虚拟 内 存 系统 中 ， 高 速 缓存 存储 整个 内 存 页 面 一 一 当 页 面 上 的 任意 
字 节 被 引用 时 ， 整 个 页 面 将 被 置 和 高 速 缓存 中 。 与 之 相反 ， 缓 冲 区 存储 连续 的 字 节 。 因 此 ， 
当 一 个 字 节 被 引用 时 ， 缓 冲 系统 会 预 加 载 接 下 来 
的 字 节 一 一 如 果 被 引用 的 字 节 位 于 页 面 的 末尾 ， 





缓冲 系统 将 预 加 载 下 一 页 的 字 节 。 topen 人 
fgetc 一 个 字 节 的 缓冲 输入 
17.22 一 个 例子 : C 语言 的 标准 I/O 库 a 人 
a fwrite 多 个 字 节 的 缓冲 输出 
最 著名 的 缓冲 IO 库 的 示例 之 一 是 为 C 语言 fprintf 格式 化 数据 的 缓冲 输出 
和 UNIX 操作 系统 创建 的 库 。 该 库 称 为 标准 IO fflush 缓冲 输出 的 清空 操作 
库 (stdio)， 既 支持 输入 缓冲 ， 也 支持 输出 组 fclose 结束 缓冲 区 的 使 用 
冲 。 图 1722 询 二 了 TDNIX 标准 WO 库 中 的 一 些 图 17.12 包含 在 UNIX 操作 系统 中 标准 1O 
函数 及 其 用 途 。 库 的 函数 示例 ， 该 库 还 包含 未 在 
17.23 小结 此 列 出 的 其 他 函数 


IO 的 两 个 方面 是 与 程序 员 有 关 的 。 编 写 设备 驱动 程序 代码 的 系统 程序 员 必 须 了 解 设备 


9” 我 们 的 分 析 忽 略 了 应 用 程序 经 常 调用 Hush 的 情况 。 
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的 底层 细节 ， 而 使 用 IO 机 制 的 应 用 程序 员 必 须 了 解 与 之 相关 的 成 本 。 

设备 驱动 程序 可 分 为 三 部 分 : 与 应 用 程序 交互 的 上 半 部 分 ， 与 设备 本 身 交 互 的 下 半 部 
分 ， 以 及 一 组 共享 变量 。 上 半 部 分 在 应 用 程序 读 或 写 数据 时 接收 控制 ; 下 半 部 分 当 设备 产生 
输入 或 输出 中 断 时 接收 控制 。 

程序 员 用 来 优化 顺序 IO 性 能 的 基础 技术 称 为 缓冲 。 缓 冲 可 以 用 于 输入 和 输出 ， 并 且 通 
常 在 运行 时 库 中 实现 。 因 为 它 会 把 数据 何 时 传输 的 控制 权 交 给 应 用 程序 ， 所 以 fush 操作 人 允 
许 缓冲 与 任意 应 用 程序 一 起 使 用 。 

通过 在 每 次 系统 调用 中 传输 更 多 的 数据 ， 缓 冲 减少 了 系统 调用 的 开销 。 缓 冲 可 以 提供 显 
著 的 性 能 提升 ， 因 为 一 个 YX 字 节 的 缓冲 区 可 以 将 应 用 程序 的 系统 调用 次 数 缩小 倍 。 


习题 

17.1 设备 驱动 程序 提供 了 什么 ? 设备 驱动 程序 如 何 使 编写 应 用 程序 更 简单 ? 

17.2 ”设备 驱动 程序 可 以 分 为 哪 三 个 部 分 ? 试 说 明 每 一 部 分 的 使 用 方法 。 

17.3 ”请 通过 描述 项 在 队列 中 插入 和 移 除 的 方式 和 时 间 ， 解 释 设备 驱动 程序 中 输出 队列 的 用 法 。 

17.4 一 个 用 户 调 用 了 一 个 写 文 件 的 应 用 程序 。 该 应 用 程序 显示 了 一 个 表示 文件 写 和 人 进度 的 进度 条 。 
当 进 度 条 达到 50% 时 电池 失效 ,设备 崩溃 了 。 当 用 户 重 新 启动 设备 时 ， 他 发 现实 际 上 只 写 和 人 了 
不 到 20% 的 文件 。 试 解释 为 什么 该 应 用 程序 显示 已 经 写 人 了 50%。 

17.5” 当 一 个 程序 调用 fputc 函数 时 ， 它 都 具体 触发 了 什么 ? 

17.6 什么 是 清空 操作 ? 为 什么 需要 该 操作 ? 

17.7 为 了 提高 一 个 应 用 程序 的 性 能 ,程序 员 重新 编写 了 该 应 用 程序 一 一 不 再 一 次 只 读 取 一 个 字 节 ， 
而 是 一 次 读 取 8000 个 字 节 ， 然 后 处 理 它们 。 该 程序 员 使 用 了 什么 技术 ? 

17.8 ” 试 比 较 使 用 write 和 fwrite 复制 大 文件 所 需 的 时 间 。 

17.9 标准 IO 函数 fseek 允许 随机 访问 。 试 测量 在 文件 中 的 一 个 小 区 域内 和 一 个 大 区 域内 使 用 
fseek 所 需 的 时 间 差 异 。 

17.10 ” 试 构建 一 个 输出 缓冲 例 程 bufputc。 要 求 该 程序 接受 一 个 将 要 打印 的 字符 作为 参数 ; 在 每 次 
调用 bufputc 时 ， 将 字符 参数 存储 在 缓冲 区 中 ; 调用 一 次 write 输出 整个 缓冲 区 。 试 对 上 述 
输出 缓冲 例 程 和 一 个 对 每 个 字符 都 调用 一 次 write 的 程序 的 性 能 进行 比较 。 
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并 行 


18.1 引言 


以 前 的 章节 涵盖 计算 机 体系 结构 的 三 个 核心 组 件 : 处 理 器 、 内 存 和 IO 系统 ， 本 章 将 开 
始 讨论 体系 结构 中 跨 边 界 的 基本 概念 。 

本 章 重 点 讨论 并 行 硬件 的 使 用 ， 并 说 明 并 行 性 可 以 用 来 提高 整个 计算 机 系统 的 速度 。 本 
章 将 介绍 概念 和 术语 ， 展 示 一 种 并 行 架构 的 分 类 方法 ， 并 检查 以 并 行 性 作为 整个 系统 设计 的 
基本 范式 的 计算 机 系统 。 最 后 ， 本 章 还 将 讨论 并 行 架构 的 局 限 性 和 存在 问题 。 

下 一 章 将 对 另 一 个 基本 技术 (流水线 技术 ) 进行 延伸 讨论 ， 我 们 将 看 到 并 行 性 和 流水 线 
在 设计 高 速 系统 中 的 重要 性 。 


18.2 并行 性 和 流水 线 架 构 

某 些 计 算 机 架构 师 声 称 只 有 两 种 基本 技术 能 用 于 提高 硬件 速度 : 并 行 性 和 流水 线 。 此 前 
我 们 已 经 见 过 这 两 个 技术 的 示例 ， 了 解 了 如 何 使 用 它们 。 

其 他 架构 师 更 广泛 地 看 待 并 行 性 和 流水 线 技术 ， 以 它们 为 基础 部 分 来 设计 系统 。 在 许多 
情况 下 ， 架 构 完 全 由 这 两 种 技术 之 一 所 主宰 ， 所 得 到 的 系统 被 非 正式 地 称 为 并 行 计算 机 或 流 
水 线 计算 机 。 


18.3 并行 的 特征 

相 比 将 一 个 架构 按 是 否 并 行 分 类 ， 系 统 架构 师 更 倾向 于 使 用 不 同 的 词汇 来 刻画 一 个 给 
定 的 设计 中 并 行 的 类 型 和 量 级 。 在 许多 情况 下 ， 术 语 
描绘 了 一 类 并 行 的 可 能 的 极端 情况 。 我 们 可 以 通过 说 





明 架 构 位 于 两 个 极端 之 间 的 位 置 来 对 架构 进行 分 类 。 ee 
图 18.1 列 出 了 迈克 尔 . 械 弗 林 (Michael J. Flynn) 在 。 细 粒度 与 粗 粒 度 。 





一 篇 经 典 论文 中 提出 的 使 用 命名 法 的 关键 特征 ?>。 后 面 * 显 式 与 隐 式 。 


到 ~ 此 ~ 语 ; 人 一 > 日 
几 节 将 对 这 些 术语 进行 解释 并 举例 说 明 1 十 寺 扒 过 主 关 机 本 过 结 析 员 


18.4 微观 与 宏观 并 行 性 数量 和 类 型 的 术语 
并 行 性 是 基础 ， 架 构 师 并 不 能 设计 一 台 不 考虑 并 

行 硬件 的 计算 机 。 有 趣 的 是 ， 并 行 的 普遍 性 意味 着 ， 除 非 计 算 机 使 用 非常 多 的 并 行 硬 件 ， 否 

则 我 们 通常 不 讨论 并 行 方面 。 为 了 表达 这 样 一 种 思想 ， 即 一 个 计算 机 多 数 并 行 功能 隐藏 在 子 

组 件 中 ,我 们 使 用 术语 “微观 并 行 ” 来 描述 。 像 我 们 周围 世界 的 微生物 一 样 ， 微 观 并 行 性 是 

存在 的 ， 但 如 果 不 仔 细 检 查 就 不 会 突显 出 来 。 


© M. J Flynn,“”Some Computer Organizations and Their Effectiveness ”, IEEE Transactions on Computers, 
C-21(9):948--960, September 1972. 
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要 点 是 : 


并行 是 如 此 重要 ， a 
”用 术语 微观 并 行 来 刻画 存在 但 不 是 特别 可 见 的 并 行 机 制 。 


更 确切 地 说 ,我 们 说 微观 并 行 指 的 是 在 一 个 特定 组 件 中 (例如 处 理 絮 内 部 或 ALU 内 部 ) 
使 用 并 行 硬件 ， 而 宏观 并 行 是 指使 并 行 作为 体系 结构 设计 的 一 个 基本 前 提 。 


18.5 ”微观 并 行 的 例子 


在 先前 的 章节 中 ， 我 们 已 经 见 到 了 微观 并 行 在 处 理 器 、 存 储 系统 和 输入 /输出 子 系统 中 
使 用 的 例子 。 下 面 的 小 节 将 着 重 描 述 几 个 例子 。 

算术 逻辑 单元 (ALU)。ALU 处 理 逻 辑 运算 和 算术 运算 。 大 多 数 ALU 并 行 地 处 理 多 个 
位 以 执行 整数 运算 。 因 此 ,设计 为 对 整数 进行 操作 的 ALU 包含 了 并 行 硬件 ， 允 许 其 在 单 次 
操作 中 对 两 个 32 位 值 执行 布尔 运算 。 另 一 种 方案 包含 一 个 ALU， 它 一 次 只 处 理 一 位 ， 这 是 
一 种 众所周知 的 位 串 行 处 理 方法 。 应 当 很 容易 看 出 ， 位 串 行 处 理 使 用 的 时 间 比 并 行 地 计算 位 
长 得 多 。 因 此 ， 位 串 行 计算 仅 为 特殊 情况 保留 。 

寄存 器 。CPU 中 的 通用 寄存 器 大 量 利用 了 微观 并 行 。 寄 存 器 中 的 每 一 位 都 是 由 单独 的 
数字 电路 (具体 地 说 ， 锁 存 器 ) 实现 的 。 此 外 ， 为 了 保证 最 高 速 的 计算 ， 通 用 寄存 器 和 ALU 
间 的 数据 移动 还 使 用 了 并 行 数据 通路 。 

物理 内 存 。 作 为 微观 并 行 的 又 一 个 例子 ， 回 想 一 下 ， 物 理 内 存 系统 使 用 了 并 行 硬件 以 实 
现 提取 和 保存 操作 一 一 这 种 硬件 被 设计 为 在 每 次 操作 中 传输 整个 字 。 正 如 在 ALU 中 一 样 ， 
微观 并 行 极 大 地 提高 了 内 存 的 速度 。 例 如 ， 在 相同 时 间 内 ， 相 较 于 一 次 只 能 存 取 一 位 的 存储 
系统 ,实现 了 64 位 字 传 输 的 内 存 系统 可 以 访问 或 存储 大 约 64 倍 的 数据 。 

并 行 总 线 架 构 。 正 如 我 们 所 看 到 的 ， 计 算 机 中 的 中 央 总 线 通 常 使 用 并 行 硬件 实现 处 理 
器 、 内 存 和 输入 /输出 设备 之 间 的 高 速 传输 。 典 型 的 现代 计算 机 拥有 32 或 64 位 宽 的 总 线 ， 
这 意味 着 在 单个 步骤 中 ,会 有 32 位 或 64 位 的 数据 通过 总 线 传 输 。 


18.6 ”宏观 并 行 的 例子 


正如 前 一 节 中 的 例子 所 示 ， 微 观 并 行 对 于 高 速 性 能 是 必 不 可 少 的 一 一 没有 并 行 硬件 ， 计 
算 机 系统 的 各 种 组 件 就 不 能 高 速 运 行 。 计 算 机 架构 师 也 注意 到 ， 全 局 架构 对 整个 系统 性 能 的 
影响 比 对 任何 单个 子 系统 性 能 的 影响 更 大 。 这 意味 着 ,在 单个 组 件 中 添加 更 多 的 并 行 性 可 能 
不 会 提高 系统 的 整体 性 能 (第 21 章 更 详细 地 讨论 了 性 能 )。 

为 了 达到 最 大 的 效果 ， 并 行 化 必须 跨越 系统 中 的 多 个 组 人 
升 单个 组 件 的 性 能 ， 而 是 计算 机 系统 必须 允许 多 个 组 件 协同 工作 。 我 们 使 用 术语 “宏观 并 
行 ” 来 刻画 在 计算 机 系统 中 跨越 多 个 大 规模 组 件 的 并 行 性 使 用 。 一 些 例子 可 以 阐明 这 一 
概念 。 

多 个 同 构 处 理 器 。 应 用 宏观 并 行 概念 的 系统 通常 以 某 种 形式 利用 多 个 处 理 器 。 例 如 ， 一 
些 个 人 计算 机 以 双核 或 四 核 为 卖点 宣传 ， 这 意味 着 这 些 计 算 机 在 单 芯 片上 包含 两 个 或 四 个 处 
理 器 拷贝 。 该 芯片 被 设计 为 允许 两 个 处 理 器 同时 工作 。 这 种 硬件 并 不 会 精确 控制 这 些 核 如 何 
使 用 。 相 反 ， 操 作 系统 将 代码 分 配给 各 个 核心 。 例 如 ， 操 作 系 统 可 以 将 处 理 输入 /输出 〈 即 ， 





oa 
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运行 设备 驱动 程序 ) 的 任务 分 配给 一 个 核心 ， 并 将 运行 应 用 程序 的 任务 分 配给 其 他 核心 。 

多 个 异 构 处 理 器 。 宏 观 并 行 的 另 一 个 例子 出 现在 广泛 使 用 专用 目的 协 处 理 器 的 系统 中 。 
例如 ， 某 台 针 对 高 速 图 形 优化 的 计算 机 可 能 有 四 个 附加 的 显示 器 ， 每 个 显示 器 均 运 行 在 一 个 
专门 的 图 形 处 理 器 上 。 图 形 处 理 器 通常 位 于 接口 卡 上 ， 并 不 会 采用 与 CPU 相同 的 架构 ， 因 
为 图 形 处 理 器 需要 用 于 优化 图 形 操作 的 指令 。 


18.7 ”对 称 与 非 对 称 
我 们 使 用 术语 对 称 并 行 来 描述 使 用 多 个 相同 部 件 (通常 是 处 理 絮 或 核心 ) 实现 可 同时 操 
作 副 本 的 设计 。 例 如 ， 称 前 文中 提 及 的 多 核 处 理 器 是 对 称 的 ， 因 为 所 有 的 核心 都 是 相同 的 。 
对 称 并 行 设计 的 替代 是 非 对 称 的 并 行 设计 。 顾 名 思 义 ， 非 对 称 的 设计 包含 了 多 个 同时 工 
作 但 彼此 不 同 的 部 件 。 例 如 ， 一 台 包 含 了 CPU、 图形 协 处 理 器 、 数 学 协 处 理 器 和 输入 /输出 
协 处 理 器 的 PC 机 被 归 类 为 使 用 了 非 对 称 并 行 ， 因 为 这 四 种 处 理 器 可 以 同时 工作 ， 但 内 部 互 
不 相同 。 


18.8 细 粒 度 并 行 与 粗 粒 度 并 行 

我 们 使 用 术语 细 粒 度 并 行 指 代 在 单个 指令 或 单个 数据 层级 上 提供 并 行 性 的 计算 机 ， 使 用 
术语 粗 粒 度 并 行 指 代 在 程序 或 大 块 数据 层级 上 提供 并 行 性 的 计算 机 。 例 如 ， 将 使 用 16 个 并 
行 硬件 单元 同时 更 新 图 像 的 16 字 节 的 图 形 处 理 器 称 为 采用 了 细 粒 度 并 行 。 相 反 ， 使 用 一 个 
核心 打印 文档 、 另 一 个 核心 撰写 电子 邮件 的 双核 PC 机 会 被 描述 为 采用 了 粗 粒度 并 行 。 


18.9 显 式 并 行 与 隐 式 并 行 


如 果 架 构 中 的 硬件 自动 地 处 理 并 行 而 无 须 程序 员 初 始 化 或 控制 并 行 执行 ,那么 该 架构 称 
为 提供 隐 式 并 行 ; 如 果 需 要 程序 员 控 制 架构 中 的 各 个 并 行 单 元 ， 则 该 架构 称 为 提供 显 式 并 
行 。 我 们 随后 将 讨论 显 式 并 行 和 隐 式 并 行 的 优 缺 点 。 


18.10 ”并 行 体系 结构 的 类 型 ( 弗 林 分 类 法 ) 


尽管 许多 系统 包含 了 一 种 或 另 一 种 形式 的 多 个 处 理 器 ， 术 语 并 行 体系 结构 通常 预 留 为 指 
代 那 些 允许 以 任意 规模 扩展 的 设计 。 也 就 是 说 ， 当 架构 师 提 到 并 行 体系 结构 时 ， 他 们 通常 指 
代 的 是 处 理 器 数目 可 以 任意 大 (或 至 少 相 当 大 ) 的 设计 。 作 为 例子 ， 考 虑 一 台 可 以 拥有 一 个 
或 者 两 个 处 理 器 的 计算 机 。 尽 管 添加 第 二 个 处 理 器 可 以 提高 并 行程 度 ， 这 样 的 体系 结构 通常 
归 类 为 双 处 理 器 计算 机 而 非 并 行 体系 结构 。 类 似 地 ， 拥 有 四 个 核 的 PC 机 归 类 为 四 核 PC 机 。 
然而 ， 一 个 由 32 台 互 连 的 PC 机 组 成 的 、 可 以 扩展 为 1024 台 PC 机 的 集群 可 归 类 为 并 行 体 
系 结构 。 

最 简单 地 理解 并 行 体系 结构 的 方法 是 将 各 种 体系 结构 分 为 几 个 组 ， 其 中 每 组 表示 一 种 
并 行 。 当 然 ， 没 有 哪 种 划分 是 绝对 的 一 一 大 多 数 实际 的 计算 机 系统 融合 了 多 个 组 中 的 并 行 机 
制 。 不 过 ， 我 们 仍 使 用 分 类 来 定义 基本 概念 和 术语 ， 这 允许 我 们 讨论 和 刻画 不 同 的 系统 。 

弗 林 提 出 了 一 种 流行 的 用 于 描述 并 行 性 的 方法 ， 这 种 方法 考虑 是 否 可 以 存在 多 个 指令 或 
数据 流 。 作 为 众所周知 的 弗 林 分 类 法 ， 系 统 关 注 计算 机 是 否 具 有 多 个 独立 的 处 理 器 ， 这 些 处 


日” 如 果 核 心 不 能 对 等 地 访问 内 存 和 1/O 设备 ,一些 架 构 师 也 会 将 术语 非 对 称 应 用 于 多 核 设计 。 
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理 器 各 自 运行 单独 的 程序 ， 或 是 使 用 多 个 数据 项 的 单个 程序 。 图 18.2 列 出 了 弗 林 分 类 法 使 
用 的 用 于 定义 并 行 的 术语 ; 下 一 节 解 释 术 语 并 给 出 例子 。 


18.11 单 指 令 流 单数 据 流 
术语 单 指令 流 单数 据 流 (SISD) 用 于 描述 不 支持 宏观 








并 行 性 的 体系 结构 。 术 语 “ 顺 序 体系 结构 ”或 “ 单 处 理 器 单 指令 流 单数 据 流 
体系 结构 ”经 常用 来 代替 SISD 以 强调 体系 结构 不 是 并 行 单 指令 流 多 数据 流 
的 。 本 质 上 ，SISD 是 指 传统 的 ( 即 ,， 冯 : 诺 依 曼 ) 体系 结 多 指令 流 单数 据 流 
构 一 一 处 理 器 遵循 标准 的 取 指 - 执行 周期 ， 一 次 执行 一 个 多 指令 流 多 数据 流 
操作 。 这 个 术语 指 代 这 样 一 个 概念 : 单个 传统 处 理 器 执行 图 18.2 ”用 弗 林 分 类 法 描述 并 行 
的 指令 均 作 用 于 单个 数据 项 。 也 就 是 说 ， 不 同 于 并 行 体系 计算 机 的 术语 9 

结构 ， 传 统 处 理 器 在 任何 时 候 都 只 能 执行 一 个 指令 ， 并 且 

每 个 指令 都 只 涉及 单个 运算 。 


当然 ,我 们 已 经 看 到 ，SISD 计算 机 可 以 在 内 部 利用 并 行 性 。 例 如 ，ALU 可 以 并 行 地 在 
多 个 位 上 执行 操作 ，CPU 可 以 调用 协 处 理 器 ， 或 利用 某 种 机 制 ， 使 其 可 以 从 两 个 存储 体 同 
时 取出 操作 数 。 然 而 ，SISD 体系 结构 的 整体 效果 是 顺序 地 执行 各 个 指令 ， 且 每 个 指令 作用 
于 一 个 数据 项 。 


18.12 单 指 令 流 多 数据 流 

术语 单 指令 流 多 数据 流 (SIMD) 用 于 描述 并 行 体系 结构 ， 其 中 每 个 指令 指定 单个 操作 
(如 ， 整 数 加 法 )， 但 该 指令 会 被 同时 应 用 到 多 个 数据 项 。 通 常 ，SIMD 计算 机 具有 足够 的 硬 
件 来 处 理 64 个 同时 进行 的 操作 (如 ，64 个 同时 进行 的 加 法 )。 

向 量 处 理 器 。SIMD 体系 结构 对 于 诸如 文字 处 理 或 电子 邮件 这 样 的 应 用 来 说 是 没有 用 的 ; 
相反 ，SIMD 与 那些 将 相同 操作 作用 于 一 组 值 的 应 用 程序 一 起 使 用 。 例 如 ， 图 形 应 用 程序 和 
一 些 科学 应 用 程序 在 SIMD 体系 结构 上 工作 得 很 好 ， 因 为 SIMD 可 以 将 操作 同时 应 用 于 大 量 
值 。 在 数学 概念 “向 量 ” 和 计算 概念 “阵列 ”之 后 ， 这 种 体系 结构 有 时 也 称 为 向 量 处 理 器 或 
阵列 处 理 器 。 


作为 SIMD 机 器 工作 的 一 个 例子 ， 考 虑 归 一 化 包含 N on 
个 元 素 的 向 量 V。 归 一 化 要 求 向 量 中 的 各 项 乘 以 浮 点 数 Q。 V[i] eVIi] x Qi; 
在 顺序 体系 结构 ( 即 SISD 体系 结构 ) 上 ， 使 向 量 归 一 化 所 
需 的 算法 由 如 图 18.3 所 示 的 循环 组 成 。 图 18.3 ”向量 归 一 化 的 顺序 算法 


在 SIMD 体系 结构 上 ， 底 层 硬件 可 以 对 数组 中 的 所 有 
值 同 时 应 用 算术 运算 (假设 数组 大 小 不 超过 硬件 的 并 行 上 限 )。 例 如 ， 具 有 64 个 并 行 单元 的 
硬件 可 以 在 单一 步 又 中 将 常数 乘 到 具有 64 个 元 素 的 数组 中 的 每 个 元 素 。 因 此 , 在 SIMD 计 
算 机 上 执行 向 量 归 一 化 的 算法 仅 需要 一 步 : 

Voc-VxQ; 


当然 ， 如 果 向 量 V (长 度 ) 大 于 硬件 容量 (并行 单元 的 数目 )， 则 需要 多 个 步骤 。 重 要 的 


昌 MISD 是 一 个 为 特殊 硬件 保留 的 专门 类 别 ， 例 如 图 19.5 展示 的 流水 线 架 构 ， 它 用 于 在 同一 块 数据 上 执行 多 个 
指令 ,或 者 用 于 提高 可 靠 性 的 元 余 处 理 器 。 
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一 点 是 ，SIMD 体系 结构 的 向 量 指令 不 仅仅 是 循环 语义 的 简化 。 相 反 ， 底 层 系 统 包含 了 多 个 
并 行 操作 的 硬件 单元 ， 能 提供 实质 的 性 能 加 速 。 这 一 性 能 改进 十 分 显著 ,特别 是 对 于 那些 使 
用 大 型 矩阵 的 计算 。 

当然 ， 并 非 SIMD 体系 结构 中 的 所 有 指令 都 可 以 应 用 于 成 组 数值 。 相 反 ， 架 构 师 选 出 要 
与 向 量 一 起 使 用 的 操作 子 集 ， 并 为 每 个 这 样 的 操作 定义 一 个 专门 的 向 量 指令 。 例 如 ,只 有 架 
构 师 选择 将 向 量 乘法 指令 (将 向 量 中 的 每 个 元 素 乘 以 常数 ) 纳入 体系 结构 中 ， 对 数组 的 (并 
行 ) 归 一 化 才 是 可 能 的 。 

除了 使 用 常量 和 向 量 的 操作 之 外 ，SIMD 计算 机 通常 提供 使 用 两 个 向 量 的 指令 。 也 就 是 
说 ， 这 类 向 量 指令 具有 一 个 或 多 个 操作 数 ， 每 个 操作 数 指定 一 个 向 量 。 例 如 ，SIMD 体系 结 
构 常 用 于 涉及 和 矩阵 乘法 的 问题 中 。 在 大 多 数 SIMD 机 器 上 ， 指 定 为 向 量 的 操作 数 给 出 了 两 条 
信息 : 向 量 在 内 存 中 的 位 置 和 指定 向 量 大 小 的 整数 〈 即 向 量 的 元 素数 目 )。 在 一 些 机 器 上 ， 向 
量 指令 由 专用 目的 寄存 器 控制 一 一 每 个 向 量 的 地 址 和 大 小 在 调用 向 量 指令 之 前 被 加 载 到 这 些 
寄存 器 中 。 无 论 如 何 ， 软 件 应 当 确 定向 量 中 元 素 的 数目 ， 这 取决 于 硬件 支持 的 最 大 大 小 ” 。 

图 形 处 理 器 。SIMD 体系 结构 也 很 受 图 形 领域 的 欢迎 。 要 理解 为 什么 ， 重 要 的 是 要 知 
道 : 典型 的 图 形 硬件 使 用 内 存 中 的 顺序 字 节 来 存储 屏幕 上 的 像素 值 。 例 如 ， 考 虑 一 个 视频 游 
戏 ， 其 中 前 景 图 在 背景 场景 停留 在 原 地 的 时 候 移动 。 游 戏 软件 必须 将 对 应 于 前 景 图 的 字 节 从 
内 存 中 的 一 个 位 置 复制 到 另 一 个 位 置 。 顺 序 体 系 结构 要 求 程序 员 指定 一 次 复制 一 个 字 节 的 循 
环 。 然而， 在 SIMD 体系 结构 中 ， 程 序 员 可 以 指定 一 个 向 量 大 小 ， 然 后 发 出 一 个 简单 的 拷贝 
命令 。 随 后 ， 底 层 SIMD 硬件 可 以 同时 复制 多 个 字 节 。 


18.13 ”多 指令 流 多 数据 流 


术语 多 指令 流 多 数据 流 (MIMD ) 用 来 描述 一 种 并 行 体系 结构 ， 其 中 每 个 处 理 器 同时 执 
行 彼此 独立 的 计算 。 尽 管 不 少 计算 机 都 包含 多 个 内 部 处 理 单元 ,但 MIMD 这 一 名 称 仍 为 那 
些 多 处 理 器 对 程序 员 可 见 的 计算 机 而 保留 。 也 就 是 说 ，MIMD 计算 机 可 以 同时 运行 多 个 独立 
的 程序 。 

对 称 多 处 理 器 ( SMP)。MIMD 体系 结构 中 最 广为人知 的 例子 是 被 称 为 对 称 多 处 理 器 
( SMP) 的 计算 机 。 一 个 SMP 包含 一 组 N 
个 可 用 于 运行 程序 的 处 理 器 (或 核心 )。 在 
一 个 典型 的 SMP 设计 中 ， 处 理 器 是 完全 一 
致 的 : 它们 每 个 都 具有 相同 的 指令 集 ， 以 
相同 的 时 钟 速率 操作 ， 可 以 访问 相同 的 存 
储 器 模块 ， 并 且 可 以 访问 相同 的 外 部 设备 。 
因此 ， 每 个 处 理 器 都 可 以 执行 与 其 他 任何 
处 理 器 完全 相同 的 计算 。 图 18.4 说 明了 这 
个 概念 。 

一 些 研究 人 员 致 力 于 探索 能 够 提高 芯 图 18.4 一 个 对 称 多 处 理 器 的 概念 性 组 织 ， 包 含 N 
片 速度 和 效能 的 方法 ， 而 男 外 一 些 研究 人 个 相同 的 处 理 器 ， 每 个 处 理 器 都 可 以 访问 
员 则 探索 对 称 多 处 理 器 形式 的 MIMD， 作 内 存 和 1O 设备 








日 习题 18.8 考虑 了 向 量 超过 硬件 容量 的 情况 下 的 加 速 比 ; 加 速 比 的 定义 可 以 在 18.15 节 中 找到 。 
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为 提供 更 强大 的 计算 机 的 另 一 种 方法 。 其 中 一 个 最 著名 的 项 目 在 卡 内 基 -- 梅 隆 大 学 进行 ， 并 
产生 了 一 个 称 为 卡 内 基 多 处 理 器 (C.mmp) 的 原型 。 在 20 世纪 80 年 代 ， 厂商 首先 推出 使 用 
SMP 技术 的 商业 产品 ， 并 被 非 正 式 地 称 为 多 处 理 器 (multiprocessor)。Sequent 公司 (目前 属 
于 IBM) 推出 了 可 运行 UNIX 操作 系统 的 对 称 多 处 理 器 。Encore 公司 也 推出 了 名 为 Multimax 
的 对 称 多 处 理 器 。 

非 对 称 多 处 理 器 (AMP)。 虽 然 对 称 多 处 理 器 占据 了 主流 ,但 其 他 形式 的 MIMD 体系 结 
构 也 是 可 行 的 。SMP 设计 的 主要 替代 方案 是 非 对 称 多 处 理 器 (AMP)。AMP 包含 一 组 W 个 
可 同时 操作 的 可 编程 处 理 器 ， 但 并 不 要 求 所 有 处 理 器 具有 相同 的 能 力 。 比 如 ，AMP 设计 可 
以 为 给 定 任务 选择 相应 的 处 理 器 〈 即 ， 某 个 处 理 器 可 能 为 高 速 磁盘 存储 设备 的 管理 而 优化 ， 
另 一 个 处 理 器 可 能 为 图 形 显示 而 优化 )。 

在 大 多 数 情况 下 ，AMP 体系 结构 遵循 主 从 方法 ， 即 其 中 一 个 处 理 器 (在 某 些 情况 下 或 
为 一 组 处 理 器 ) 控制 整体 执行 ， 并 根据 需要 调用 其 他 处 理 器 。 控 制 执行 的 处 理 器 称 为 主 处 理 
器 ， 其 他 处 理 器 称 为 从 处 理 器 。 

理论 上 ， 有 N 个 处 理 器 的 AMP 体系 结构 可 以 包含 多 种 不 同 的 处 理 器 。 然 而 ， 在 实践 
中 , 大 多 数 AMP 设计 只 包含 两 到 四 种 类 型 的 处 理 器 。 典 型 地 ， 一 个 通用 AMP 体系 结构 包 
括 至 少 一 个 为 整体 控制 而 优化 的 处 理 器 ( 主 处 理 器 )， 以 及 其 他 一 些 为 诸如 算术 运算 或 IO 等 
辅助 功能 而 优化 的 处 理 器 。 

数学 和 图 形 协 处 理 器 。 使 用 非 对 称 体系 结构 的 商业 计算 机 系统 已 被 推出 。 在 20 世纪 80 
年 代 末 、90 年 代 初 ， 当 PC 制造 商 开 始 销售 数学 协 处 理 器 时 ， 一 种 如 今 广为人知 的 AMP 设计 
开始 流行 。 数 学 协 处 理 器 的 思想 很 直观 : 协 处 理 器 是 一 个 专用 的 芯片 ，CPU 可 以 调用 它 来 执 
行 浮 点 运算 。 由 于 被 设计 为 针对 单个 任务 优化 ， 协 处 理 器 可 以 比 CPU 更 快 地 执行 相应 任务 。 

CDC 外 围 处 理 器 。 控 制 数据 公司 (CDC) 率先 提出 了 在 大 型 机 中 使 用 AMP 体系 结构 的 
想法 ， 并 推出 了 相应 的 6000 系列 大 型 机 。CDC 体系 结构 使 用 十 个 外 围 处 理 器 来 处 理 1/0， 
图 18.5 展示 了 在 CPU 和 IO 设备 之 间 的 外 围 处 理 器 的 概念 性 组 织 。 有 趣 的 是 ，CDC 的 外 围 
处 理 器 不 只 限于 IO 处 理 一 一 外 围 处 理 器 更 像 是 支持 通用 指令 集 的 小 型 计算 机 ， 可 供 程 序 员 
选择 使 用 。 外 围 处 理 器 可 以 访 
问 内 存 ， 这 意味 着 外 围 处 理 器 
可 以 读 取 或 存储 任何 位 置 的 值 。 
尽管 比 CPU 慢 得 多 , CDC 上 
的 所 有 十 个 外 围 处 理 器 都 可 以 
并 发 运行 。 因 此 ， 可 以 通过 在 
外 围 处 理 器 和 CPU 之 间 划 分 任 
务 来 优化 程序 性 能 。 

虽然 CDC 计算机 已 经 停 
产 , 但 可 编程 10 处 理 器 的 基 
本 思想 还 在 继续 发 挥 作用 。 令 
人 惊讶 的 是 ， 多 核 芯片 令 通 用 
方法 可 行 ， 因 为 众多 数目 的 核 
心 使 得 有 可 能 将 IO 任务 单独 
分 配给 一 个 或 多 个 核心 。 图 18.5 ”CDC 6000 大 型 计算 机 中 使 用 的 非 对 称 体系 结构 示意 图 
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IO 处 理 器 。 大 多 数 大 型 机 使 用 AMP 体系 结构 ， 能 够 高 速 处 理 1/0 请 求 而 避免 减缓 
CPU 速度 。 每 个 外 部 IO 连接 都 配 有 专用 的 可 编程 处 理 器 。CPU 不 再 管理 总 线 或 处 理 中 断 ， 
而 仅仅 将 程序 下 载 到 可 编程 处 理 器 中 。 随 后 ， 这 些 处 理 器 将 负责 处 理 IO 的 所 有 细节 。 例 
如 ，IBM 公司 销售 的 大 型 计算 机 使 用 了 可 编程 的 IO 处 理 器 ， 并 命名 为 通道 。 


18.14 通信 、 协 同和 竞争 

很 显然 ， 多 处 理 器 体系 结构 总 会 比 单 处 理 器 体系 结构 具有 更 好 的 性 能 。 例 如 ， 考 虑 一 个 
对 称 多 处 理 器 M。 直 觉 上 ， 多 处 理 器 M 可 以 胜 过 单 处 理 器 ， 因 为 M 可 以 在 任何 时 刻 执行 N 
倍 的 操作 。 此 外 ， 如 果 芯 片 供应 商 找到 了 一 种 方法 ， 可 以 制造 出 比 M 运行 得 更 快 的 单 处 理 
器 ,那么 销售 M 的 厂商 只 需要 将 M 中 的 每 个 处 理 器 都 更 换 为 新 的 单 处 理 器 芯片 ， 就 可 以 获 
得 更 快 的 多 处 理 器 。 事 实 上 ， 许 多 制造 多 处 理 器 的 公司 都 用 这 些 论述 吸引 顾客 。 

不 幸 的 是 ， 我 们 有 关 计算 机 性 能 的 直觉 可 能 是 错误 的 。 在 设计 高 性 能 并 行 体系 结构 的 过 
程 中 ， 架构 师 发 现 了 三 个 主要 的 挑战 : 

。 通信。 

。 协同 。 

。 竞争。 

通信 。 虽 然 看 起 来 一 台 具 有 几 十 个 独立 处 理 器 的 计算 机 算得 上 稀 松 平常 ， 但 计算 机 必须 
提供 一 种 机 制 ， 允 许 处 理 器 与 其 他 处 理 器 、 内 存 和 IO 设备 通信 。 更 重要 的 是 ， 通 信 机 制 必 
须 能 够 扩展 以 应 对 大 量 的 处 理 器 。 架 构 师 必须 花费 大 量 精力 来 创建 没有 严重 通信 瓶颈 的 并 行 
计算 机 系统 。 

协同 。 在 并 行 体系 结构 中 ， 处 理 器 必须 一 起 工作 以 执行 计算 。 因 此 ， 需 要 协调 机 制 允 许 
处 理 过 程 受 控 。 我 们 提 过 ， 非 对 称 设计 通常 指定 其 中 一 个 处 理 器 作为 控制 和 协调 所 有 处 理 过 
程 的 主 处 理 器 ; 一 些 对 称 设计 也 会 使 用 主 从 方法 。 其 他 体系 结构 使 用 分 布 式 协调 机 制 ， 其 中 
的 处 理 器 必须 要 可 编程 ， 以 在 没有 主 控 的 情况 下 相互 协调 。 

竞争 。 当 两 个 或 多 个 处 理 器 试图 同时 访问 一 个 资源 时 ， 我 们 称 处 理 器 竞争 资源 。 资 源 竞 
争 是 设计 并 行 体系 结构 的 最 大 挑战 之 一 ， 因 为 竞争 随 着 处 理 器 数量 的 增长 而 增加 。 

为 了 理解 为 什么 竞争 是 一 个 问题 ， 考 虑 内 存 。 如 果 一 组 N 个 处 理 器 都 可 以 访问 指定 内 
存 ， 那 么 必须 引入 一 种 机 制 ， 使 得 在 任何 时 候 只 允许 一 个 处 理 器 访问 内 存 。 当 多 个 处 理 器 试 
图 同时 访问 内 存 时 ， 硬 件 竞争 机 制 阻塞 除 一 个 处 理 器 之 外 的 所 有 其 他 处 理 器 。 也 就 是 说 ， 在 
内 存 访 问 期 间 ， 有 N-1 个 处 理 器 处 于 空闲 状态 ; 在 下 一 轮 访问 中 ， 仍 有 N-2 个 处 理 器 被 闲 
置 。 显 而 易 见 的 是 : 






ob DA 


18.15 ”多 处 理 器 的 性 能 

多 处 理 器 体系 结构 并 没有 满足 可 扩展 、 高 性 能 计算 的 承诺 。 有 几 个 原因 : 操作 系统 瓶 
贷 、 内 存 竞争 和 I/0。 在 现代 计算 机 系统 中 ,操作 系统 控制 所 有 处 理 ， 包 括 向 处 理 器 分 配 任 
务 以 及 处 理 TO。 一 台 设 备 不 能 同时 接受 来 自 多 个 处 理 器 的 命令 ， 所 以 只 能 有 一 个 操作 系统 
的 副本 可 以 运行 。 因 此 ， 在 多 处 理 器 中 ， 任 何 时 刻 最 多 只 能 有 一 个 处 理 器 运行 操作 系统 软 
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件 ， 而 这 也 意味 着 操作 系统 是 处 理 器 必须 争 用 的 共享 资源 。 因 此 ， 操 作 系统 迅速 成 为 使 得 处 
理 器 必须 串 行 访 问 的 瓶颈 一 一 如 果 天 个 处 理 吉 需要 访问 ， 则 其 中 天 -1 个 处 理 器 必须 等 待 。 

内 存 竞争 已 被 证 明 是 一 个 特别 困难 的 问题 。 首 先 ， 多 端口 内 存 的 硬件 非常 昂贵 。 其 次 ， 
内 存 系统 中 最 重要 的 优化 之 一 〈 缓 存 ) 在 与 多 处 理 器 一 起 使 用 时 会 产生 问题 。 如 果 缓 存 是 共 
享 的， 处 理 器 就 竞争 访问 ; 如 果 每 个 处 理 器 都 有 一 个 私有 缓存 ， 则 必须 对 缓存 进行 协调 ， 使 
得 任何 更 新 被 传播 到 所 有 缓存 。 不 幸 的 是 ， 这 种 协调 会 引入 开销 。 

许多 多 处 理 器 体系 结构 还 面临 着 另 一 个 缺陷 : 这 些 体系 结构 只 有 在 执行 密集 计算 时 才 优 
于 单 处 理 器 。 令 人 意外 的 是 ， 大 多 数 应 用 程序 并 不 因 其 计算 量 而 受 限 ; 相反 ， 大 多 数 应 用 程 
序 是 IO 受 限 ， 这 意味 着 应 用 程序 会 花费 更 多 的 时 间 等 待 IO 而 不 是 执行 计算 。 例 如 ， 常 见 
应 用 程序 (如 电子 表格 、 视 频 游戏 或 网 页 浏览 ) 中 的 大 多 数 延 迟 都 来 自 对 文件 或 网 络 的 IO 
等 待 。 因 此 ， 为 底层 计算 机 提供 额外 的 计算 能 力 并 不 会 减少 执行 计算 所 需 的 时 间 一 一 额外 的 
处 理 器 会 因为 等 待 1/O 而 被 闲置 。 

为 了 评估 具 及 个 处 理 絮 的 系统 的 性 能 ， 我 们 将 加 速 比 的 概念 定义 为 单个 处 理 器 的 性 
能 与 多 处 理 器 性 能 之 比 。 具 体 而 言 ， 我 们 定义 加 速 比 为 : 


加 速 比 = 也 


Ty 
其 中 nm 表示 程序 在 单个 处 理 器 上 执行 花费 的 时 间 ，zx 表示 程序 在 多 处 理 器 上 执行 花费 的 时 
间 9。 在 每 种 情况 下 ， 我 们 均 假设 采用 可 用 的 最 佳 算法 来 测量 性 能 ( 即 ， 我 们 允许 重 构 程 序 以 
充分 利用 并 行 硬件 的 优势 ) 。 

当 执 行 通用 计算 任务 时 ， 测 量 多 处 理 器 ， 一 个 有 趣 的 结果 出 现 了 。 在 理想 情况 下 ， 我 们 
预期 随 着 多 处 理 器 系统 中 处 理 器 个 数 的 增加 ， 系 统 性 能 将 线性 提升 。 然 而 经 验 表 明 ， 内 存 竞 
争 、 处 理 器 间 通 信和 操作 系统 瓶颈 等 问题 会 使 多 处 理 器 系统 无 法 获得 线性 加 速 。 相 反 ， 其 性 
能 往往 会 触及 某 个 极限 ， 如 图 18.6 所 示 。 


加 速 比 





1 4 8 12 16 
处 理 器 数量 (NV) 


图 18.6 当 处 理 器 数量 增加 时 ， 多 处 理 器 的 理想 及 实际 性 能 示意 图 。?” 轴 上 的 值 为 系统 相 较 于 
单个 处 理 器 的 相对 加 速 比 


昌 我 们 期 望 程序 在 单个 处 理 器 上 的 处 理 时 间 大 于 其 在 多 处 理 器 上 的 处 理 时 间 ， 所 以 我 们 期 望 加 速 比 大 于 1。 
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令 人 惊讶 的 是 ， 在 实践 中 ， 即 便 是 图 18.6 中 所 示 的 性 能 曲线 也 可 能 无 法 实现 。 在 一 些 
多 处 理 器 设计 中 ， 通 信 开 销 和 内 存 竞 争 主 导 着 运行 时 间 : 随 着 越 来 越 多 处 理 器 的 加 入 ， 系 统 
的 性 能 甚至 会 开始 下 降 。 例 如 ， 某 个 特定 的 对 称 多 处 理 器 设计 中 ， 系 统 可 以 因为 少数 几 个 处 
理 器 的 加 入 而 表现 出 少量 的 性 能 提升 。 然 而 ， 当 使 用 多 达 64 个 处 理 器 时 ， 通 信 开 销 使 得 系 
统 的 性 能 比 单个 处 理 器 更 差 。 我 们 可 以 总 结 如 下 : 






18.16 ”对 程序 员 的 影响 


并 行 通常 会 使 编程 变 得 更 加 复杂 。 程 序 员 必须 了 解 并 行 执行 ， 还 必须 防止 一 个 并 行 活动 
与 其 他 并 行 活动 相 冲 突 。 下 面 几 节 描述 了 程序 员 为 此 使 用 的 一 些 机 制 和 技巧 。 


18.16.1 锁 和 互 斥 


编写 使 用 多 个 处 理 器 的 代码 天 然 地 比 编写 使 用 单 load x,R5 # 将 变量 x 载 入 R5 
个 处 理 器 的 代码 复杂 。 为 了 理解 这 种 复杂 性 ， 考 虑 共 SA s ph 
享 变量 的 使 用 。 例 如 ,假设 两 个 处 理 器 使 用 变量 x 来 , 


存储 一 个 计数 值 。 程 序 员 编 写 了 如 下 的 一 条 语句 : 网 二 7 机 棒 扒 令 生 到 的 示例 -用 于 
递增 内 存 中 的 变量 。 在 大 多 


数 体系 结构 中 ， 递 增 数值 需 


之 这 二 


编译 器 将 语句 转换 为 如 图 18.7 所 示 的 机 器 指令 要 借助 加 载 和 存储 操作 
序列 。 

不 幸 的 是 ， 如 果 两 个 处 理 器 试图 在 几乎 相同 的 . 处 理 器 1 将 x 加 载 到 寄存 器 5。 
时 刻 递增 x， 那么 x 的 值 可 能 会 递增 一 次 ， 而 不 是 两 。 处理 器 1 递增 寄存 器 5 中 的 值 。 
次 。 出 现 这 样 的 错误 是 因为 这 两 个 处 理 器 各 自 独 立 运 oa 机 
2 一 ce pp i Ar 。 1 太 ] 5 Xo 
行 ， 并 竞争 访问 内 存 。 因此 ， 实 际 操作 可 能 按 图 18.8 , 处 理 器 2 弟 墙 额 存 器 5 中 的 值 。 
中 给 出 的 顺序 执行 : 。 处理 器 2 将 寄存 器 5 中 的 数值 存 人 x。 





为 了 防止 如 图 18.8 所 示 的 问题 出 现 ， 多 处 理 需 硬 
件 提 供 了 硬件 锁 。 程 序 员 必 须 将 锁 与 每 个 共享 项 相关 
联 ， 并 使 用 锁 确保 在 数据 项 更 新 的 过 程 中 没有 其 他 处 
理 器 可 以 进行 更 改 。 例 如 ， 如 果 锁 17 与 变量 x 相关 
联 ， 程 序 员 必须 在 更 新 x 之 前 获取 锁 17。 这 种 思想 称 
为 互 斥 ， 即 处 理 器 必须 取得 对 数据 项 的 独占 使 用 后 才 # 将 变量 x 载 入 R5 
能 对 其 进行 更 新 。 图 18.9 说 明了 这 样 的 指令 序列 。 2 和 
底层 硬件 保证 在 任何 时 刻 都 仅 有 一 个 处 理 器 能 被 es # 释放 锁 17 
授予 某 个 锁 。 因 此 ， 如 果 两 个 或 多 个 处 理 器 同时 试图 
获得 特定 的 锁 ， 则 其 中 一 个 处 理 器 获得 访问 权 〈 即 ， 
继续 执行 )， 而 其 他 处 理 器 会 被 阻塞 。 事 实 上 ， 当 某 
个 处 理 器 持 有 锁 时 ， 任 意 数 量 的 其 他 处 理 器 都 可 能 被 


图 18.8 当 两 个 独立 的 处 理 器 或 核 访 
问 共享 内 存 中 的 变量 x 时 可 
能 出 现 的 一 系列 步骤 





图 18.9 用 于 保证 独占 访问 变量 的 指 
令 示 意图 ， 每 个 共享 项 都 被 
分 配 了 单独 的 锁 


阻塞 。 一 旦 持 有 锁 的 处 理 器 释放 了 锁 ， 硬 件 会 选择 一 个 被 阻塞 的 处 理 器 ， 授 予 其 锁 ， 并 人 允许 
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该 处 理 器 继续 运行 。 因 此 ， 硬 件 确保 在 任何 时 候 都 只 能 有 至 多 一 个 处 理 器 持 有 给 定 的 锁 。 

由 于 以 下 几 个 原因 ， 锁 为 程序 的 编写 增加 了 不 寻常 的 复杂 性 。 第 一 ， 由 于 加 锁 是 不 寻常 
的 ， 不 习惯 为 多 处 理 器 编程 的 程序 员 很 容易 忘记 锁定 共享 变量 ; 并 且 由 于 不 受 锁 保护 的 访问 
可 能 不 总 是 导致 错误 ， 所 以 程序 的 问题 会 更 加 难以 检测 。 第 二 ， 加 锁 会 严重 降低 性 能 一 一 如 
果 K 个 处 理 器 试图 同时 访问 共享 变量 ,那么 硬件 会 使 K-1 个 处 理 器 保持 空闲 以 等 待 访问 。 
第 三 ， 由 于 需要 使 用 单独 的 指令 来 获取 和 释放 锁 ， 加 锁 使 得 开销 增加 。 为 此 ， 程 序 员 必须 决 
定 是 否 为 每 个 单独 的 操作 获取 锁 ; 或 是 首先 获得 锁 ， 随 后 保持 锁 并 对 变量 执行 一 系列 操作 ， 
最 后 再 释放 锁 。 


18.16.2 显 式 并 行 和 隐 式 并 行 的 计算 机 编程 

对 程序 员 而 言 ， 并 行 性 最 受 关注 的 方面 在 于 究竟 是 软件 负责 管理 还 是 硬件 负责 管理 一 一 
为 隐 式 并 行 的 系统 编程 显然 比 为 显 式 并 行 的 系统 编程 更 容易 。 例 如 ， 考 虑 这 样 一 个 处 理 器 ， 
其 被 设计 用 于 处 理 来 自 计算 机 网 络 的 数据 包 。 在 隐 式 设计 中 ,程序 员 按 照 处 理 单个 数据 包 来 
编写 代码 ， 硬 件 会 自动 、 并 行 地 对 六 个 数据 包 应 用 相同 的 程序 。 在 显 式 设 计 中 ， 程 序 员 必 
须 有 计划 地 读 取 N 个 数据 包 ， 将 每 个 数据 包 发 送 到 不 同 的 核心 ， 等 待 核心 完成 处 理 ， 并 提 
取 处 理 后 的 数据 包 。 在 许多 情况 下 ， 用 于 控制 并 行 核心 以 及 确定 它们 何 时 完成 的 代码 比 执行 
所 需 计 算 的 代码 更 加 复杂 。 更 重要 的 是 ， 控 制 并 行 硬件 单元 的 代码 必须 允许 硬件 按照 任意 
顺序 执行 。 例 如 ， 由 于 处 理 数 据 包 所 需 的 时 间 取 决 于 数据 包 的 内 容 ， 所 以 控制 器 必须 为 此 准 
备 ， 允 许 硬 件 单元 以 任意 顺序 完成 处 理 。 重 点 是 : 


Da 
看 ， 为 使 用 显 式 








”从 程序 员 的 角度 
复杂 得 多 。 





18.16.3 ”对 称 与 非 对 称 多 处 理 器 编程 


对 称 性 最 重要 的 优点 之 一 来 自 它 为 程序 员 带 来 的 积极 结果 : 对 称 多 处 理 器 着 实 比 非 对 称 
多 处 理 器 更 容易 编程 。 第 一 ， 如 果 所 有 的 处 理 器 都 是 相同 的 ， 程 序 员 只 需 一 个 编译 器 和 一 
种 程序 语言 。 第 二 ， 对 称 性 意味 着 程序 员 不 需要 考虑 哪些 任务 最 适合 哪 种 类 型 的 处 理 器 。 第 
三 ， 因 为 相同 的 处 理 器 通常 以 相同 的 速度 运行 ， 所 以 程序 员 不 需要 担心 在 给 定 处 理 器 上 执行 
任务 所 需 的 时 间 。 第 四 ， 因 为 所 有 处 理 器 对 指令 和 数据 使 用 相同 的 编码 ， 所 以 二 进 制程 序 或 
数据 值 可 以 从 一 个 处 理 器 迁移 到 男 一 个 处 理 器 。 

当然 ， 任 何 形式 的 多 处 理 器 都 会 带 来 复杂 性 : 抛 去 其 他 因素 不 谈 ， 程序 员 也 必须 考虑 编 
码 决 策 对 性 能 的 影响 。 例 如 ， 考虑 处 理 来 自 网 络 的 数据 包 的 计算 。 传 统 程序 会 在 内 存 中 保留 
全 局 计数 器 ， 并 在 数据 包 到 达 时 了 予以 更 新 。 然 而 ， 在 共享 内 存 的 体系 结构 中 ， 更 新 内 存 中 值 
的 代价 会 更 为 高 昂 ， 因 为 处 理 器 必须 在 更 新 内 存 中 的 共享 值 之 前 获得 锁 。 所 以 ， 程 序 员 需 要 
考虑 各 种 小 细节 的 影响 一 一 例如 ， 更 新 内 存 中 的 共享 计数 器 。 


18.17 “元 余 并 行 体系 结 构 


我 们 现 有 的 讨论 集中 在 使 用 并 行 硬件 来 提高 性 能 或 增加 功能 性 。 然 而 ， 使 用 并 行 硬件 
来 提高 可 靠 性 和 防止 故障 也 是 可 行 的 。 也 就 是 说 ， 可 以 使 用 多 个 硬件 副本 来 验证 各 个 计算 
过 程 。 
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术语 “ 宛 余 硬件 ”通常 指 以 并 行 方式 执行 操作 的 多 个 硬件 单元 副本 。 元 余 硬 件 和 之 前 描 
述 的 并 行 体 系 结构 之 间 的 基本 区 别 来 自 它 们 所 使 用 的 数据 项 : 并 行 体系 结构 会 安排 硬件 的 各 
个 副本 对 不 同 的 数据 项 进行 操作 ; 宛 余 体系 结构 则 安排 所 有 的 硬件 副本 执行 完全 一 致 的 操作 。 

使 用 元 余 硬 件 的 目的 是 验证 计算 是 否 正确 。 当 硬件 的 元 余 副 本 出 现 不 一 致 的 结果 时 会 发 
生 什么 ? 答案 取决 于 底层 系统 的 细节 和 和 目标。 一 种 可 能 性 是 使 用 投票 : 硬件 单元 的 天 个 副 
本 各 自 执行 计算 并 产生 一 个 值 ; 随后 ， 另 一 个 专门 的 硬件 单元 比较 各 个 输出 ， 并 选择 出 现 次 
数 最 多 的 值 。 另 一 种 可 能 性 是 使 用 宛 余 硬 件 来 检测 硬件 故障 : 如 果 硬 件 的 两 个 副本 发 生 不 一 
致 ， 系 统 显 示 错 误 消 息 并 随后 宕 机 ， 直 到 有 缺陷 的 单元 被 修复 或 替换 。 


18.18 ”分布 式 集群 计算 机 


本 章 讨论 的 并 行 体系 结构 被 称 为 是 紧 耦 合 的 ， 因 为 各 个 硬件 单元 均 位 于 同一 计算 机 系统 
内 。 作 为 替代 ， 另 一 种 称 为 松 耦 合 的 体系 结构 使 用 了 多 个 计算 机 系统 ， 这 些 计 算 机 系统 通过 
可 跨越 较 长 距离 的 通信 机 制 互 连 。 例 如 ， 我们 使 用 “分 布 式 体系 结构 ”这 个 术语 来 指 由 计算 
机 网 络 或 互联 网 连接 的 一 组 计算 机 。 在 分 布 式 体系 结构 中 ， 每 台 计 算 机 独立 运行 ， 但 是 计 算 
机 可 以 通过 在 网 络 中 发 送 消息 的 方法 进行 通信 。 

有 一 种 特殊 形式 的 分 布 式 计算 系统 ， 称 为 网 络 集群 或 集群 计算 机 。 本 质 上 ， 集 群 计 算 机 
由 一 组 独立 的 计算 机 (如 商用 个 人 电脑 ) 组 成 ， 并 通过 高 速 计算 机 网 络 相 联 。 科 学 家 使 用 集 
群 计算 机 执行 基于 极 大 数据 集 的 计算 ， 互 联网 搜索 公司 使 用 集群 来 响应 用 户 的 搜索 请 求 ， 云 
服务 供应 商 使 用 集群 的 方法 来 构建 云 数 据 中 心 。 一 般 的 想法 是 ， 对 于 具有 N 台 计 算 机 的 集 
群 ， 计 算 任务 可 以 分 割 成 多 路 。 集 群 中 的 计算 机 是 灵活 的 ， 它 们 可 用 于 解决 单个 问题 ， 也 可 
用 于 解决 多 个 独立 的 问题 。 集 群 中 的 计算 机 各 自 独立 运行 。 如 果 它 们 在 处 理 单个 问题 ， 那 么 
它们 各 自 的 结果 可 以 被 收集 起 来 以 生成 最 终 输 出 。 

集群 计算 的 一 个 特例 是 用 来 构建 处 理 大 量 较 小 请 求 的 高 负载 网 站 。 集 群 中 的 每 个 计算 机 
都 运行 着 同一 Web 服务 器 的 副本 。 一 种 称 为 Web 负载 均衡 器 的 专用 系统 将 进入 的 请 求 分 发 
到 集群 中 的 计算 机 上 。 每 次 当 请 求 到 达 时 ， 负 载 均衡 器 在 集群 中 选择 负载 最 低 的 计算 机 并 将 
请 求 转发 给 它 。 因 此 ， 具 及 台 计 算 机 集群 的 网 站 每 秒 可 以 响应 大 约 N 倍 于 单 台 计算 机 的 
请 求 。 

另 一 种 松散 耦合 的 分 布 式 计算 形式 称 作 网 格 计 工 。 网 格 计算 使 用 全 球 因特网 作为 大 量 计 
算 机 之 间 的 通信 机 制 。 这 些 计 算 机 (通常 为 个 人 拥有 ) 同意 为 网 格 提供 空闲 的 CPU 执行 周 
期 时 间 。 每 个 计算 机 运行 软件 ， 重 复 地 接受 请 求 、 执 行 请 求 的 计算 ， 并 返回 结果 。 要 使 用 网 
格 ， 问 题 必 须 被 分 成 许多 小 块 。 该 问题 的 每 个 小 块 都 被 发 送 到 一 台 计 算 机 ， 所 有 的 计算 机 都 
可 以 同时 执行 。 


18.19 现代 超级 计算 机 


非 正 式 地 讲 ， 超 级 计算 机 一 词 用 来 指 一 种 比 大 型 计算 机 具有 更 大 的 处 理 能 力 的 高 级 计算 
系统 。 因 为 它们 经 常用 于 科学 计算 ， 所 以 超级 计算 机 通常 以 其 每 秒 可 以 执行 的 浮 点 操作 数 来 
评估 。 

并 行 在 超级 计算 机 中 一 直 扮 演 着 重要 的 角色 。 早 期 的 超级 计算 机 具有 16 或 64 个 处 理 
器 。 现 代 超级 计算 机 由 借助 高 速 局 域 网 互 连 的 许多 PC 机 的 集群 构成 。 此 外 ， 每 个 PC 中 的 
处 理 器 都 具有 多 个 核心 。 现 代 超 级 计算 机 将 并 行 性 推 向 了 惊人 的 程度 。 例 如 ， 中 国 的 天 河 二 


荔 18 意 六 条 223 


号 超级 计算 机 由 16 000 个 英特尔 处 理 器 节点 组 成 的 集群 构成 。 每 个 节点 都 有 自己 的 内 存 和 
一 组 处 理 器 ， 且 每 个 处 理 器 都 具有 多 个 核心 。 由 此 产生 的 系统 总 共有 3 120 000 个 核心 。 具 
有 超过 300 万 个 核心 的 计算 机 的 计算 能 力 是 难以 想象 的 。 


18.20 小结 


并 行 性 是 一 种 用 于 提高 硬件 性 能 的 基本 优化 技术 。 计 算 机 系统 的 大 多 数组 件 都 包含 并 行 
硬件 ; 但 只 有 当 体系 结构 包含 并 行 处 理 器 时 ， 该 体系 结构 才 被 归 类 为 并 行 的 。 显 式 并 行 性 赋 
予 程序 员 对 并 行 部 件 的 控制 ; 隐 式 并 行 性 则 自动 处 理 并 行 性 。 

单 处 理 器 计算 机 被 归 类 为 单 指令 流 单数 据 流 (SISD) 体系 结构 ， 因 为 在 任何 给 定 的 时 
刻 都 仅 有 单个 指令 对 单个 数据 项 进行 操作 。 单 指令 流 多 数据 流 ( SIMD) 体系 结构 允许 指 
令 在 一 组 值 上 操作 。 典 型 的 SIMD 机 器 包括 向 量 处 理 器 和 图 形 处 理 器 。 多 指令 流 多 数据 流 
(MIMD ) 体系 结构 利用 了 多 个 独立 处 理 器 ， 这 些 处 理 器 可 以 同时 操作 ， 并 且 可 以 执行 不 同 的 
程序 。 典 型 的 MIMD 机 器 包括 对 称 和 非 对 称 多 处 理 器 。SIMD 和 MIMD 体系 结构 的 替代 方 
案 包 括 宛 余 、 分 布 式 、 集 群 和 网 格 体系 结构 。 

理论 上 ， 具 有 N 个 处 理 器 的 通用 多 处 理 器 应 该 比 单个 处 理 器 快 Y 倍 。 然 而 ， 在 实践 中 ， 
内 存 竞争 、 通 信 开 销 和 协调 意味 着 多 处 理 器 的 性 能 不 会 随 着 处 理 器 数量 的 增加 而 线性 增加 。 
在 极端 情况 下 ， 这 些 开 销 意 味 着 系统 性 能 会 随 着 额外 处 理 器 的 加 入 而 降低 。 

为 使 用 多 个 处 理 器 的 计算 机 编程 可 能 是 一 个 挑战 。 除 了 其 他 考虑 ， 程 序 员 必 须 使 用 锁 来 
保证 对 共享 项 的 独占 访问 。 

现代 超级 计算 机 由 大 量 的 处 理 器 的 集群 构成 。 如 果 一 个 问题 可 以 被 划分 为 几 个 子 部 分 ， 
那么 超级 计算 机 集群 中 的 处 理 器 就 可 以 并 行 地 工作 在 这 些 子 问 题 上 。 


习题 

18.1 给 出 宏观 并 行 的 定义 并 举 一 个 例子 。 

18.2 ”如 果 计 算 机 有 四 个 核心 和 两 个 GPU 核心 ， 那么 系统 是 否 具有 对 称 并 行 性 、 非 对 称 并 行 性 或 两 者 
兼 而 有 之 ? 请 说 明 。 

18.3 ”使 用 弗 林 分 类 方案 对 双核 智能 手机 进行 分 类 。 

18.4 ”什么 是 竞争 ? 它 如 何 影 响 性 能 ? 

18.5 C 程 序 员 正 在 编写 将 在 多 个 核心 上 运行 的 代码 ， 并 且 必 须 递 增 共享 变量 x。 不 使 用 如 下 代码 : 
X=X+1 
C 程序 员 写 的 是 : 
X 十 十 ; 

第 二 种 形式 是 否 保 证 两 个 核心 可 以 执行 增 量 而 不 会 相互 干扰 ? 请 说 明 。 

18.6 ”你 将 获得 两 份 相同 薪水 的 工作 机 会 ， 一 份 为 使 用 显 式 并 行 性 的 系统 编写 代码 ， 另 一 份 为 使 用 隐 
式 并 行 性 的 系统 编写 代码 。 你 选择 哪个 ?为 什么 ? 

18.7 考虑 在 具有 向 量 功 能 但 将 每 个 向 量 限 制 为 16 个 元 素 的 计算 机 上 ， 执 行 两 个 10 x 20 的 矩阵 乘法 。 
如 何在 这 样 的 计算 机 上 处 理 矩 阵 乘 法 ?需要 多 少 次 向 量 乘法 ? 

18.8 在 上 一 题 中 ， 单 核 处 理 器 ( 即 SISD 体系 结构 ) 需要 多 少 次 标量 乘法 ? 如 果 我 们 忽略 加 法 并 且 仅 
测量 乘法 ,那么 加 速 比 是 多 少 ? 执行 100 x 100 的 矩阵 乘法 时 加 速 比 是 否 会 改变 ? 

18.9 如 果 你 可 以 访问 使 用 相同 时 钟 速率 的 单 处 理 器 和 双 处 理 器 计算 机 ， 请 编写 占用 大 量 CPU 时 间 的 
程序 ， 在 两 台 计 算 机 上 运行 多 个 副本 ， 并 记录 运行 时 间 。 什 么 是 有 效 加 速 比 ? 
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18.10 在 上 一 个 问题 中 ， 更 改 程序 以 引用 大 量 内 存 〈 例 如 ， 重 复 将 大 数组 设置 为 值 x， 然 后 将 数组 设 
置 为 值 ?>， 依 此 类 推 )。 内 存 引用 如 何 影 响 加 速 比 ? 

18.11 多 处 理 器 能 和 否 实现 比 线性 更 好 的 加 速 比 ? 要 找 出 答案 ， 请 考虑 一 个 加 密 破解 算法 ， 该 算法 必须 
尝试 24 种 (4 的 阶乘 ) 可 能 的 加 密 密 钥 ， 并 且 必 须 执行 多 达 1024 个 操作 来 测试 每 个 密 钥 〈 仅 
在 找到 答案 时 提前 停止 )。 如 果 我 们 假设 多 处 理 器 需要 KK 毫秒 来 执行 1024 次 操作 ,那么 处 理 器 
平均 花费 多 少时 间 来 解决 整个 问题 ?7 32 个 处 理 器 的 MIMD 机 器 花 多 少时 间 来 解决 该 问题 ? 最 
终 的 加 速 比 是 多 少 ? 

18.12 ”搜索 网 络 ， 查找 排名 前 10 的 超级 计算 机 的 列表 。 每 台 机 器 有 多 少 个 核心 ? 
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19.1 引言 

先前 的 章节 展示 了 处 理 器 、 内 存 系统 和 IO 等 计算 机 体系 结构 的 基本 方面 。 上 一 章 展示 
了 如 何 使 用 并 行 性 来 提高 性 能 ， 并 介绍 了 各 种 并 行 体系 结构 。 

本 章 重 点 介绍 用 于 提高 性 能 的 第 二 个 主要 技术 : 数据 流水 线 。 本 章 讨论 流水 线 的 动机 ， 
解释 流水 线 的 各 种 使 用 方法 ， 并 说 明 为 什么 流水 线 可 以 提高 硬件 性 能 。 


19.2 流水 线 的 概念 
术语 “流水 线 ” 一 般 指 代 任何 具有 这 样 特征 的 体系 结构 : 数字 信息 流 经 一 系列 “站 点 ” 
(例如 ， 处 理 组 件 )， 每 个 站 点 检查 、 解 释 或 修改 信息 ， 如 图 19.1 所 示 。 


言 息 到 达 信息 离开 
i 流水 段 2 流水 段 3 PP 





图 19.1 流水 线 的 概念 性 示意 图 。 该 示例 流水 线 具 有 四 段 ， 信 息 从 各 段 中 流 过 


尽管 我 们 主要 感 兴趣 的 是 硬件 体系 结构 ， 以 及 流水 线 在 单个 计算 机 系统 中 的 应 用 ， 但 流 
水 线 这 一 概念 本 身 并 不 局 限于 硬件 。 流 水 线 技术 不 局 限于 单个 计算 机 、 特 定 类 型 或 大 小 的 数 
字 信息 ， 抑 或 是 具体 的 特定 长 度 的 流水 线 ( 即 特定 数量 的 段 ) ; 相反， 流水 线 是 计算 过 程 可 
能 在 各 种 情况 下 使 用 的 一 个 基本 概念 。 

为 了 帮助 理解 这 一 概念 ， 我 们 将 考虑 一 组 特性 。 图 19.2 列 出 了 描述 流水 线 的 一 些 特征 ， 
下 面 将 依次 解释 。 

硬件 实现 或 软件 实现 。 流 水 线 既 可 以 在 软件 中 实现 ， . 硬件 实现 或 软件 实现 。 
也 可 以 在 硬件 中 实现 。 例 如 ，UNIX 操作 系统 提供 了 可 用 | . 大 规模 或 小 规模 。 
于 创建 软件 流水 线 的 管道 机 制 一 一 一 组 进程 创建 管道 ， 该 yr re 
管道 可 将 一 个 进程 的 输出 连接 到 下 一 个 进程 的 输入 。 我 们 | 看 限 块 和 连 续 位 流 “ 
将 在 后 续 部 分 考虑 硬件 流水 线 。 然 而 ， 应 当 注意 ， 软 件 流 。 自 动 数据 馈送 或 手动 数据 馈送 。 
水 线 和 硬件 流水 线 是 独立 的 : 在 未 使 用 硬件 流水 线 体系 结 。“ |* 品行 路 径 或 并 行路 径 。 
构 的 计算 机 上 ， 可 以 创建 软件 流水 线 ， 并 且 流 水 线 硬 件 对 【由 构 段 或 异 构 段 。 





于 程序 员 来 说 也 不 是 必须 可 见 的 。 图 19.2 在 数字 系统 中 ,流水 线 
大 规模 或 小 规模 。 流 水 线 中 各 段 的 功能 可 以 从 简单 到 的 各 种 方式 


强大 不 一 ， 流 水 线 的 长 度 也 可 以 从 短 到 长 不 等 。 在 极端 情 

况 下 ， 芯 片上 一 个 小 的 功能 单元 内 就 能 完全 包含 一 条 硬件 流水 线 ; 而 在 另 一 种 极端 情况 下 ， 
也 可 以 传递 数据 依次 通过 一 系列 程序 ， 从 而 创建 一 条 软件 流水 线 ， 这 些 程序 分 别 运行 在 单独 
的 计算 机 上 ， 并 使 用 因特网 进行 通信 。 类 伏地， 较 短 的 流水 线 可 以 仅 由 两 段 组 成 : 一 段 生成 
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信息 ， 另 一 段 接受 信息 ; 而 长 流水 线 则 可 以 包含 数 百 个 段 。 

同步 流 或 异步 流 。 同 步 流 水 线 像 装 配 线 一 样 工作 : 在 特定 时 刻 ， 每 个 段 都 在 处 理 着 一 些 
信息 〈 例 如 ， 一 个 字 节 )。 全 局 时 钟 控制 着 数据 流动 ， 这 意味 着 所 有 段 会 同时 将 其 数据 〈 即 
处 理 结果 ) 转发 到 下 一 段 。 另 一 种 方法 是 异步 流水 线 ， 该 方法 允许 每 段 在 任意 时 刻 转发 信 
息 。 异 步 通信 对 于 数据 的 处 理 时 间 依 赖 于 该 段 接 收 到 的 数据 的 情况 尤其 有 吸引 力 。 然 而 ， 蜡 
步 通信 也 意味 着 如 果 一 个 段 延 迟 了 很 长 时 间 ， 则 随后 的 段 也 必须 因此 而 等 待 。 

缓冲 流 或 无 缓冲 流 。 图 19.1 的 概念 图 表明 ， 流 水 线 中 的 段 直接 将 数据 发 送 到 另 一 个 段 。 
构造 一 个 段 与 段 之 间 有 缓冲 的 流水 线 也 是 可 行 的 。 缓 冲 对 于 异步 流水 线 非 常 有 用 : 在 异步 
流水 线 中 ,信息 处 理 是 突 发 的 ( 即 一 个 流水 线 中 包含 这 样 一 个 流水 段 ， 它 重复 地 发 射 稳定 输 
出 ， 随 后 停止 发 射 输出 ， 接 着 再 次 开始 发 射 稳定 输出 )。 

有 限 块 或 连续 位 流 。 通 过 流水 线 的 数字 信息 可 以 由 一 系列 小 数据 项 (例如 ， 来 自 计算 机 
网 络 的 数据 包 )， 或 者 是 任意 长 的 位 流 ( 例 如， 连续 的 视频 信号 ) 组 成 。 此 外 ， 对 单个 数据 项 
进行 操作 的 流水 线 也 可 以 按 不 同 的 方式 设计 : 既 可 以 将 所 有 数据 项 视 为 具有 相同 的 大 小 ( 例 
如 ， 均 为 4KB 大 小 的 磁盘 扇 区 )， 也 可 以 将 数据 项 的 大 小 视 为 不 固定 的 〈 例 如， 一 系列 长 度 
不 同 的 以 太 网 数据 包 )。 

自动 数据 馈送 或 手动 数据 馈送 。 一 些 流 水 线 的 实现 使 用 单独 的 机 制 来 移动 信息 ， 而 其 他 
一 些 实现 要 求 每 个 段 都 参与 信息 移动 。 例 如 ,同步 硬件 流水 线 通常 依靠 辅助 机 制 将 信息 从 
一 个 流水 段 移动 到 另 一 个 流水 段 。 然 而 ， 软 件 流水 线 通 常 需要 各 个 段 显 式 地 输出 需 传 出 的 数 
据 ， 以 及 读 取 输入 数据 。 

串 行 路 径 或 并 行路 径 。 图 19.1 中 的 大 箭头 暗示 着 有 一 条 并 行路 径 负责 将 信息 从 一 个 流 
水 段 移动 到 另 一 个 流水 段 。 虽 然 一 些 硬 件 流 水 线 确实 使 用 了 并 行路 径 ， 但 很 多 流水 线 仍 使 用 
串 行 通信 。 此 外 ， 各 段 之 间 的 通信 也 并 不 一 定 需要 采用 传统 的 通信 方式 (例如 ， 各 段 可 以 借 
助 计算 机 网 络 或 共享 存储 器 进行 通信 )。 

同 构 段 或 异 构 段 。 虽 然 在 图 19.1 中 流水 线 的 各 个 自 具 有 相同 的 尺寸 和 形状 ,但 这 种 同 
构 性 不 是 必需 的 。 一 些 流水 线 的 实现 方案 选择 了 适合 于 各 个 段 的 硬件 类 型 。 


19.3 软件 流水 线 


从 程序 员 的 角度 来 看 ， 软 件 流水 线 是 有 吸引 力 的 ， 主 要 有 两 个 原因 。 首 先 ， 软 件 流水 线 
提供 了 一 种 处 理 复杂 性 的 方法 。 其 次 ， 软 件 流水 线 允 许 复 用 程序 。 本 质 上 ， 这 两 个 目标 的 实 
现 是 因为 软件 流水 线 允 许 程序 员 将 一 个 大 的 、 复 杂 的 任务 划分 为 更 小 的 、 更 一 般 的 问题 。 

作为 软件 流水 线 的 示例 ， 考 虑 UNIX Shell ( 即 命令 解释 器 ) 提供 的 管道 机 制 。 要 创建 软 
件 流水 线 ， 用 户 需要 输入 一 个 命令 名 列表 ， 该 列表 由 垂直 制 表 符 分 隔 ， 以 指定 这 些 程序 应 
该 作为 一 个 管道 运行 。Shell 负责 安排 程序 ， 以 使 上 一 个 程序 的 输出 成 为 下 一 个 程序 的 输入 。 
每 个 程序 可 以 有 和 零 个 或 多 个 参数 来 控制 处 理 过程 。 例 如 ， 在 Shell 中 输入 以 下 命令 将 把 三 个 
程序 cat 、sed 和 more 组 装 成 一 个 管道 : 


cat x | sed 's/friend/partner/g | more 
在 该 示例 中 ，cat 程序 生成 文件 x (应 当 是 文本 文件 ) 的 副本 并 写 人 其 输出 ， 该 输出 随 


后 成 为 sed 程序 的 输入 。 流 水 线 中 间 的 sed 程序 接收 来 自 cat 的 输入 ， 并 将 输出 发 送 到 
more。sed 包含 一 个 参数 ， 它 规定 将 出 现 的 所 有 单词 “ friend” 转 换 成 “partner”。 
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管道 的 最 后 一 道 程序 more 接收 来 自 sed 的 输入 ， 并 将 其 在 用 户 的 屏幕 上 显示 出 来 。 

虽然 上 面 的 例子 没有 多 么 复杂 ， 但 它 说 明了 软件 流水 线 是 如 何 帮助 程序 员 的 。 将 程序 分 
解 为 一 系列 较 小 的 、 不 太 复 杂 的 程序 ， 可 以 更 容易 地 创建 和 调试 软件 。 此 外 ， 如 果 仔 细 选 择 
划分 ， 则 可 以 在 程序 之 间 复 用 一 些 片 段 。 特 别 是 ， 程 序 员 经 常 发 现 ， 使 用 流水 线 将 输入 和 输 
出 处 理 与 计算 过 程 分 离 ， 允 许 执行 计算 的 代码 与 各 种 形式 的 输入 / 输出 一 起 复 用 。 


19.4 软件 流水 线 的 性 能 和 开销 


相 比 单个 程序 ， 使 用 软件 流水 线 似乎 导致 了 更 低 的 性 能 。 操 作 系 统 必须 同时 运行 多 个 应 
用 程序 ， 并 在 程序 对 之 间 传 递 数 据 。 如 果 流 水 线 的 早期 阶段 通过 了 大 量 随 后 就 被 丢弃 的 数 
据 ， 那么 低 效率 的 情况 可 能 会 尤为 显著 。 例 如 ,考虑 以 下 包含 比 上 一 个 示例 多 一 个 阶段 的 软 
件 流水 线 : 新 增 了 一 次 对 sed 的 调用 ， 其 作用 是 删除 任何 包含 字符 W 的 行 。 


cat x | sed 's/friend/partner/g’ | sed ‘/W/d’ | more 


如 果 我 们 预期 所 有 行 中 有 99% 包含 字符 WwW， 则 流水 线 的 前 两 个 阶段 会 执行 不 必要 的 工 
作 ( 即 处 理会 在 流水 线 的 后 续 阶 段 丢 弃 的 文本 行 )。 在 该 示例 中 ， 可 以 通过 将 删除 操作 移动 
到 较 早 阶段 来 优化 流水 线 。 然 而 ， 使 用 软件 流水 线 的 开销 似乎 仍然 存在 : 将 数据 从 一 个 程序 
复制 到 另 一 个 程序 的 效率 低 于 在 单个 程序 中 执行 所 有 计算 的 效率 。 

令 人 惊讶 的 是 ， 即 使 底层 硬件 不 使 用 多 个 核 ， 软 件 流水 线 也 可 以 比 大 型 的 单个 程序 表现 
得 更 好 。 要 理解 原因 ， 需 要 考虑 底层 架构 : 计算 、 内 存 和 IO 都 是 由 独立 的 硬件 构造 的 。 操 
作 系 统 通过 在 应 用 程序 ( 即 进程 ) 之 间 自 动 切换 处 理 器 来 利用 这 一 独立 性 : 当 一 个 应 用 程序 
在 等 待 IO 时 ， 让 另 一 个 应 用 程序 运行 。 因 此 ， 如 果 一 个 流水 线 由 许多 小 应 用 程序 组 成 ， 那 
么 操作 系统 可 以 通过 在 流水 线 中 运行 一 个 应 用 程序 ， 而 让 另 一 个 应 用 程序 等 待 7O ， 提 高 总 
体 性 能 。 


19.5 ”硬件 流水 线 


像 软 件 流水 线 一 样 ， 硬 件 流水 线 可 以 帮助 设计 者 应 对 复杂 性 一 一 复杂 任务 可 以 被 分 解 成 
更 小 、 更 易 处 理 的 任务 。 然 而 ， 架 构 师 选择 硬件 流水 线 最 重要 的 原因 是 对 性 能 的 提升 。 硬 件 
流水 线 有 两 种 不 同 的 使 用 方法 ， 每 种 方法 都 能 提供 高 性 能 : 

。 指令 流水 线 。 

e 数据 流水 线 。 

指令 流水 线 。 第 5 章 解释 了 处 理 器 中 的 取 指 - 执行 周期 是 如 何 借助 流水 线 来 解码 和 执行 
指令 的 。 确 切 地 说 ， 我 们 使 用 “指令 流水 线 ” 这 个 术语 来 描述 这 样 一 种 流水 线 ， 即 流 经 的 信 
息 由 机 器 指令 组 成 ， 且 流水 线 各 段 负责 解码 和 执行 这 些 指令 。 由 于 各 种 处 理 器 支持 的 指令 集 
和 操作 数 类 型 各 不 相同 ， 因 此 对 于 指令 流水 线 的 段 数 或 在 特定 段 上 需要 执行 的 确切 操作 并 没 
有 统一 的 规定 9 。 

数据 流水 线 。 除 指令 流水 线 之 外 ， 还 存在 着 一 种 被 称 为 数据 流水 线 的 硬件 流水 线 。 也 就 
是 说 ， 流 经 这 种 流水 线 的 并 非 指 令 一 一 数据 流水 线 被 设计 用 来 将 数据 从 一 个 段 传递 到 另 一 个 
段 。 例 如 ， 如 果 使 用 数据 流水 线 处 理 从 计算 机 网 络 到 达 的 数据 包 ， 则 每 个 数据 包 顺 序 地 通过 
流水 线 的 各 个 段 。 数 据 流 水 线 提供 了 一 些 最 不 寻常 和 最 有 趣 的 流水 线 使 用 方式 。 正 如 我 们 将 


日 在 本 章 后 面 给 出 的 超 流 水 线 的 定义 也 涉及 指令 流水 线 。 
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看 到 的 ， 数据 流水 线 也 有 潜力 实现 最 大 的 整体 性 能 。 


19.6 硬件 流水 线 如 何 提升 性 能 


为 了 理解 为 什么 流水 线 是 硬件 设计 的 基础 ， 我 们 需要 考虑 一 个 关键 点 : 流水 线 可 以 显著 
提高 性 能 。 要 了 解 这 是 如 何 实现 的 ， 可 以 比较 数据 流水 线 和 单 体 化 设计 的 不 同 。 例 如 ， 考 虑 
互联 网 服务 提供 商 (ISP) 在 客户 和 网 站 之 间 转 发 数据 包 所 使 用 的 互联 网 路 由 器 的 设计 。 路 
由 器 连接 到 多 个 网 络 ， 其 中 一 些 网 络 通 向 客户 ， 其 余 至 少 有 一 个 通 向 互联 网 。 网 络 包 可 以 从 
任何 网 络 中 到 来 ， 而 路 由 器 的 任务 是 将 每 个 包 发 送 到 其 目的 地 。 为 了 说 明 这 个 例子 ,我 们 假 
设 路 由 器 会 在 每 个 包 上 执行 6 个 基本 操作 ， 如 图 19.3 所 示 。 理 解 每 个 具体 的 操作 并 不 重要 ， 
只 要 领会 到 这 个 例子 的 真实 性 即 可 。 

1. 接收 数据 包 ( 即 从 网 络 设备 中 读 取 数 据 包 ， 并 将 读 取 到 的 字 节 转移 到 位 于 内 存 的 缓冲 区 中 )。 


2. 验证 数据 包 的 完整 性 (例如 ,使 用 校 验 和 来 验证 传输 和 接收 过 程 中 数据 包 是 否 发 生变 化 )。 
3. 检查 转发 循环 〈 即 递减 包头 中 的 某 个 数值 ， 并 用 新 值 重 构 包头 )。 


4. 选择 路 径 ( 即 使 用 数据 包 中 的 目的 地 址 字段 来 选取 一 个 可 能 的 输出 网 络 ， 并 在 该 网 络 中 选取 一 个 目的 地 )。 
5. 准备 传输 ( 即 计算 将 随 数据 包 一 起 发 送 的 信息 ， 该 信息 将 被 接收 方 用 于 验证 完整 性 )。 
6. 发 送 数据 包 (即将 数据 包 传送 到 输出 设备 )。 





图 19.3 互联 网 路 由 器 硬件 转发 数据 包 所 执行 的 一 系列 步 又 示例 


考虑 实现 图 19.3 中 步 又 的 硬件 设计 。 因 为 这 些 步骤 涉及 复杂 的 计算 ， 所 以 似乎 应 该 使 
用 处 理 器 来 执行 数据 包 转 发 的 过 程 。 然 而 ， 对 于 高 速 网 络 来 说 ， 单 个 处 理 器 是 不 够 快 的 。 因 
此 ， 大 多 数 设计 采用 了 前 面 章节 中 描述 的 两 个 优化 : 智能 IO 设备 和 并 行 化 。 智 能 IO 设备 
可 以 在 不 借助 处 理 器 的 情况 下 向 内 存 或 从 内 存 传 输 数 据 包 ， 而 并 行 设计 使 用 单独 的 处 理 器 来 
处 理 各 个 输入 。 

具有 智能 IO 接口 的 并 行路 由 器 设计 意味 着 每 个 处 理 器 都 实现 了 重复 执行 6 个 基本 步 又 
的 循环 。 图 19.4 说 明了 处 理 器 是 如 何 连 接 到 输入 的 ， 并 展示 了 处 理 器 运行 的 算法 。 


出 
处 理 器 入 执行 循环 { 


准备 传输 
包 入 队列 以 备 输出 





a) b) 
图 19.4 a) 用 于 互联 网 路 由 器 的 并 行 实现 中 处 理 器 的 连接 示意 ; b) 处 理 器 执行 的 算法 。 每 个 处 
理 器 处 理 来 自 一 个 网 络 的 输入 
假设 一 个 并 行 体系 结构 如 图 19.4 所 示 ， 依 然 太 慢 。 也 就 是 说 ， 假 设 现 有 的 处 理 器 无 法 
在 下 一 个 包 到 达 接 口 之 前 执行 完 算法 的 所 有 步骤 ,并且 当前 没有 更 快 的 处 理 器 可 用 。 怎 样 才 
能 获得 更 高 的 性 能 ”更 高 速度 的 一 个 可 能 性 在 于 数据 流水 线 : 使 用 包含 多 个 处 理 器 的 流水 线 
来 代替 单个 处 理 器 ， 如 图 19.5 所 示 9 。 


号 流水 线 提 供 了 前 一 章 中 提 到 的 弗 林 MISD 类 型 的 并 行 体系 结构 的 示例 。 
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几 5 性 检查 循环 选择 路 径 gg 


图 19.5 在 互联 网 路 由 器 中 单个 处 理 器 的 流水 线 示意 图 


图 19.5 中 的 流水 线 似乎 不 比 图 19.4 中 的 单个 处 理 器 快 。 毕 竟 ， 流 水 线 架构 在 每 个 包 上 
执行 的 操作 与 单个 处 理 器 完全 相同 。 此 外 ， 如 果 图 19.5 中 的 每 个 处 理 器 与 图 19.4 中 的 处 理 
器 速度 相同 ， 则 执行 给 定 操作 的 时 间 将 相同 。 例 如 ， 用 于 验证 完整 性 的 步骤 在 两 个 架构 上 花 
费 相同 的 时 间 ， 用 于 检查 转发 循环 的 步骤 在 两 个 架构 上 花费 的 时 间 也 相同 ， 等 等 。 因 此 ， 如 
果 我 们 忽略 为 在 流水 线 各 个 阶段 之 间 传 递 数 据 包 而 引入 的 延迟 ， 则 处 理 数据 包 所 花费 的 总 时 
间 与 单 处 理 器 体系 结构 所 需 的 时 间 完 全 相同 。 


数据 流水 线 将 数据 在 一 系列 流水 笑 中 传递 ， 每 个 颖 均 负责 检查 或 修改 数据 。 如 果 它 
非 流 构 相 i ta otes ene 






如 果 流 水 线 和 非 流 水 线 架构 中 处 理 数据 的 总 时 间 相 同 ， 那 么 数据 流水 线 的 优点 是 什么 ? 
令 人 惊讶 的 是 ， 即 使 图 19.5 中 的 各 个 处 理 器 与 图 19.4 中 的 处 理 器 速度 完全 相同 ， 流 水 线 架 
构 也 可 以 每 秒 处 理 更 多 的 数据 包 。 要 了 解 原因 ， 请 注意 (流水 线 架 构 中 ) 单个 处 理 器 在 每 个 
包 上 执行 了 更 少 的 指令 。 此 外 ， 对 一 个 数据 项 进行 操作 之 后 ， 处 理 器 就 可 以 继续 处 理 下 一 个 
数据 项 。 因 此 ,数据 流 水 线 架构 允许 给 定 处 理 器 比 非 流水 线 架构 更 快 地 开始 对 下 一 个 数据 项 
的 处 理 。 结 果 是 数据 可 以 以 更 高 的 速率 进入 (和 离开 ) 流水 线 。 


”即使 数据 流水 线 使 用 与 非 流水 线 架构 相同 速度 的 尖 理 加 数据 流水 线 仍 具 有 ee 
本 吞吐 量 ( 即 每 秒 处 理 的 数据 项 的 数量 )。 


19.7 ” 何 时 使 用 流水 线 


流水 线 并 不 会 在 任何 情况 下 都 带 来 更 高 的 性 能 。 图 19.6 列 出 了 使 流水 线 比 单个 处 理 髓 更 
快 执行 需要 满足 的 条 件 。 

可 划分 的 问题 。 必 须 有 可 能 将 处 理 过 程 划 分 成 可 以 相互 独立 计算 的 子 阶段 。 使 用 一 系列 
顺序 步骤 的 计算 可 以 在 流水 线 中 工作 得 很 好 ， 然 而 涉及 连 


代 的 计算 往往 不 能 。 。 可 划分 的 问题 。 
同等 的 处 理 器 速度 。 显 然 ， 如 果 数 据 流水 线 中 使 用 的 * 同等 的 处 理 器 速度 。 

处 理 器 慢 到 一 定 程度 ， 执 行 计算 所 需 的 总 时 间 将 远 远 高 于 ed sabe 

在 单个 处 理 器 上 所 需 的 时 间 。 流 水 线 中 的 处 理 器 不 必 比 单 。 ”图 19.6 数据 流水 线 比 相同 的 音 

个 处 理 器 更 快 ， 只 需要 大 约 和 单个 处 理 器 一 样 快 即 可 。 也 个 处 理 器 表现 更 佳 所 需 


就 是 说 ， 在 流水 线 处 理 器 上 执行 给 定 计 算 所 需 的 时 间 不 能 的 三 个 关键 条 件 
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超过 在 单个 处 理 器 上 执行 相同 计算 所 需 的 时 间 。 

低 开 销 的 数据 移动 。 除 了 执行 计算 所 需 的 时 间 之 外 ， 数 据 流水 线 还 有 额外 的 开销 : 将 数 
据 项 从 流水 线 的 一 段 移动 到 下 一 段 所 需 的 时 间 。 如 果 移 动 数据 会 带 来 极 高 的 延迟 ， 流 水 线 将 
难以 提升 性 能 。 

这 些 要 求 的 出 现 是 因为 这 样 一 条 重要 的 原则 : 





作为 示例 ， 考 虑 图 19.5 中 的 数据 流水 线 。 假 设 流 水 线 中 的 所 有 处 理 器 都 是 相同 的 ， 并 
且 假 设 流水 线 处 理 器 执行 指令 所 需 的 时 间 与 单个 处 理 器 的 完全 相同 。 为 了 使 示例 具体 化 ， 假 
设 处 理 器 每 微 秒 可 以 执行 10 条 指令 。 进 一 步 假设 图 中 的 四 段 分别 需要 50、100、200 和 150 
条 指令 来 处 理 数据 包 。 最 慢 的 流水 段 需要 200 条 指令 ， 这 意味 着 处 理 数据 包 最 慢 的 流水 段 花 
费 的 总 时 间 是 : 


着 时间 一 太 -20 宾 和 (19.1) 
换个 角度 来 看 ， 我 们 可 以 发 现 流 水 线 每 秒 可 处 理 数 据 包 的 最 大 数量 与 流水 线 中 最 慢 流 水 
段 处 理 每 个 数据 包 所 需 的 时 间 成 反比 。 因 此 ， ei 7; 可 通过 以 下 计算 给 出 : 
Ts 000 数据 包 / 秒 (19.2 ) 
相反 ， 非 流水 线 架构 必须 在 每 个 数据 包 上 执行 所 有 500 条 指令 ， 这 意味 着 每 个 数据 包 所 

需 的 总 时 间 为 50 微 秒 。 因 此 ， 非 流水 线 架构 的 吞吐 量 为 : 


数据 包 / 秒 (19.3 ) 


19.8 ”处 理 过 程 的 概念 划分 


数据 流水 线 之 所 以 能 够 提升 性 能 ， 是 因为 流水 线 提供 了 一 种 特殊 形式 的 并 行 性 。 通 过 将 
一 系列 顺序 操作 划分 成 组 并 将 各 组 交 由 流水 线 的 单独 段 处 理 ， 流 水 线 允 许 各 段 并 行 运 作 。 当 
然 ， 流 水 线 架构 与 传统 的 并 行 架 构 有 很 大 不 同 : 虽然 各 个 段 并 行 运行 ， 但 是 给 定 的 数据 项 必 
须 经 过 所 有 段 。 图 19.7 说 明了 这 个 概念 。 


Al) 
8() 九 ) 2() h() 
h() 


a) 
图 19.7 a) 传统 处 理 器 的 处 理 ; b) 数据 流水 线 上 的 等 价 处 理 。 顺 序 执行 的 函数 被 划分 到 流水 线 的 各 段 
图 19.7 中 的 三 个 流水 段 是 并 行 运行 的 。 第 三 流水 段 对 一 个 数据 项 执行 函数 h， 同 时 第 二 


流水 段 对 第 二 个 数据 项 执行 函数 g， 第 一 流水 段 对 第 三 个 数据 项 执行 函数 大 只 要 流水 线 充 
满 ( 即 数 据 项 之 间 没 有 延 时 )， 整 个 系统 就 会 因 NN 个 段 的 并 行 运行 而 受益 。 
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19.9 流水 线 架 构 


回顾 前 一 章 ， 我 们 区 分 了 仅仅 使 用 并 行 性 的 硬件 架构 以 及 将 并 行 性 作为 围绕 整个 系统 设 
计 的 核心 范式 的 硬件 架构 。 类 似 地 ， 我 们 将 使 用 了 流水 线 的 硬件 架构 以 及 把 流水 线 视 为 围绕 
整个 系统 设计 的 核心 范式 的 硬件 架构 进行 区 分 。 我 们 为 后 者 保留 了 “流水 线 体系 结构 ”这 一 
名 称 。 因 此 ， 人 们 可 能 会 听 到 架构 师 说 某 个 系统 中 的 处 理 器 使 用 了 指令 流水 线 ， 但 是 架构 师 
不 会 将 该 系统 描述 为 流水 线 体 系 结构 ， 除 非 该 系统 的 总 体 设计 以 流水 线 为 中 心 。 

大 多 数 采用 流水 线 体系 结构 的 硬件 系统 都 致力 于 实现 特殊 用 途 的 功能 。 例 如 ， 上 面 的 例 
子 描述 了 如 何 利用 流水 线 提高 数据 包 处 理 系 统 的 性 能 。 流 水 线 在 网 络 系统 中 尤其 重要 ， 因 为 
当 通 过 光纤 发 送 数 据 时 ， 使 用 的 高 数据 速率 超过 了 常规 处 理 器 的 处 理 容 量 。 

基于 以 下 两 个 原因 ， 通 用 计算 机 系统 较 少 使 用 流水 线 体系 结构 。 首 先 ， 只 有 很 少 的 应 用 
程序 可 以 分 解 成 一 组 能 够 顺序 执行 的 独立 操作 。 取 而 代 之 的 是 ， 大 多 数 典型 的 应 用 程序 随机 
访问 数据 项 ， 并 保有 大 量 的 附加 状态 信息 。 其 次 ， 即 使 在 对 数据 执行 的 操作 可 以 分 解 为 流水 
线 的 情况 下 ， 流 水 线 的 段 数 和 实现 各 个 流水 段 所 需 的 硬件 通常 也 无 法 预先 知道 。 因 此 ， 通 用 
计算 机 通常 将 流水 线 硬 件 限 制 为 处 理 器 中 的 指令 流水 线 或 IO 设备 中 的 专用 流水 线 。 


19.10 ”流水 线 的 建立 、 延 迟 以 及 排 空 时间 

我 们 对 流水 线 的 描述 忽略 了 许多 实际 细节 。 例 如 ,许多 流水 线 实现 有 与 启动 和 停止 流水 
线 相关 的 开销 。 我 们 使 用 术语 “建立 时 间 ” 来 描述 经 过 一 段 空闲 期 后 启动 流水 线 所 需 的 时 
间 。 建 立 可 能 涉及 流水 段 之 间 的 同步 处 理 ， 或 在 流水 线 中 传送 特殊 的 令 牌 以 重新 启动 各 个 流 
水 段 。 对 于 软件 流水 线 来 说 ， 建 立 开 销 可 能 是 特别 高 昂 的 ， 因 为 各 个 流水 段 之 间 的 连接 是 动 
态 创建 的 。 

与 其 他 体系 结构 不 同 ， 流 水 线 可 能 需要 大 量 的 时 间 来 终止 处 理 。 我 们 使 用 术语 “ 排 空 时 
间 ” 指 代 在 输入 不 可 用 后 ， 流 水 线 完成 其 当前 处 理 经 过 的 时 间 量 。 我 们 说 ， 在 流水 线 关 闭 之 
前 必须 排 空 流 水 线 中 的 项 。 

基于 以 下 两 个 原因 ， 排 空 一 个 流水 线 中 通过 的 数据 项 是 必要 的 。 首 先 ， 当 第 一 流水 段 没 
有 输入 时 ， 流 水 线 转 为 空闲 。 其 次 ， 正 如 我 们 所 看 到 的 ， 当 流水 线 的 一 个 流水 段 延 迟 时 《〈 即 
由 于 某 段 不 能 完成 处 理 而 产生 延迟 )， 其 后 的 流水 段 转 也 变 为 空闲 。 在 高 速 硬件 流水 线 中 ， 
诸如 内 存 引用 或 IO 操作 之 类 的 平常 操作 都 可 能 导致 流水 段 延迟 。 因 此 ， 较 长 的 排 空 (或 建 
立 ) 时 间 会 显著 降低 流水 线性 能 。 


19.11 超 流水 线 架 构 的 定义 


最 后 的 这 个 概念 将 完成 我 们 对 流水 线 的 描述 。 架 构 师 使 用 术语 “ 超 流水 线 ” 来 描述 一 种 
流水 线 方法 的 扩展 ， 其 中 流水 线 的 某 些 段 被 细 分 为 一 组 子 流水 段 。 超 流水 线 最 常用 于 指令 流 
水 线 ， 但 是 这 个 概念 同样 适用 于 数据 流水 线 。 总 体 思 路 是 : 如 果 将 处 理 过 程 划 分 为 Y 个 段 可 
以 提高 总 体 吞 吐 量 ， 则 添加 更 多 段 可 以 将 吞吐 量 进一步 提高 。 

传统 的 指令 流水 线 可 能 有 五 个 段 ， 对 应 为 : 指令 提取 、 指 令 解 码 、 操 作 数 获取 、ALU 
操作 和 内 存 写 人 。 超 流水 线 架 构 将 一 个 或 多 个 段 细 分 为 多 个 子 段 。 例 如 ， 超 流水 线 可 以 将 操 
作 数 获取 阶段 细 分 为 四 个 步骤 : 解码 操作 数 、 获 取 立 即 数 或 从 寄存 器 取 值 、 从 内 存 中 获取 
值 、 获 取 间 接 操 作 数 。 与 标准 流水 线 一 样 ， 细 分 的 目的 是 获得 更 高 的 吞吐 量 一 一 因为 每 个 子 
段 花 费 更 少 的 时 间 ， 所 以 超 流水 线 的 吞吐 量 高 于 标准 流水 线 的 。 
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19.12 ”小结 


流水 线 是 一 个 广泛 的 、 基 础 的 概念 ， 它 可 同时 用 于 硬件 和 软件 。 可 以 在 不 提供 流水 线 的 
硬件 上 使 用 软件 流水 线 ， 该 软件 流水 线 将 一 组 程序 串联 ， 并 使 数据 在 其 中 通过 。 

硬件 流水 线 要 么 归 类 为 指令 流水 线 ， 用 于 在 处 理 器 内 部 处 理 机 器 指令 ; 或 者 归 类 为 数据 
流水 线 ， 可 在 其 中 通过 任意 数据 。 超 流水 线 技术 通常 与 指令 流水 线 一 起 使 用 ， 其 中 流水 线 的 
段 被 进一步 细 分 为 子 段 。 

数据 流水 线 不 会 减少 处 理 单个 数据 项 所 需 的 总 时 间 。 然 而 ， 使 用 流水 线 确 实 增加 了 总 吞 
吐 量 (每 秒 处 理 的 项 数 )。 流 水 线 的 吞吐 量 受 到 处 理 数 据 项 所 需 时 间 最 长 的 流水 段 的 限制 。 


习题 

19.1 科学 家 使 用 一 组 PC 集群 ， 安 排 在 每 个 处 理 器 上 安装 软件 并 执行 计算 的 一 个 步骤 。 处 理 器 读 取 最 
多 1 MB 的 数据 (各 种 类 型 )， 处 理 数 据 ， 然 后 通过 32 位 总 线 将 其 输出 传递 给 下 一 个 处 理 器 。 这 
种 安排 有 哪些 特性 来 自 图 19.2 ? 

19.2 ”团队 的 任务 是 将 视频 处 理 程序 从 旧 的 单 核 处 理 器 转移 到 核心 之 间 具 有 高 速 互 连 的 新 的 四 核 处 理 
器 。 传 统 的 并 行 方法 不 起 作用 ， 因 为 必须 按 顺 序 处 理 视 频 帧 。 你 建议 哪 种 技术 可 以 使 用 新 硬件 
来 提高 性 能 ? 

19.3 ”工程师 使 用 8 个 处 理 器 构建 数据 流水 线 。 为 了 测量 性 能 ， 工 程 师 在 一 个 处 理 器 上 运行 软件 并 测 
量 处 理 单个 数据 项 所 花费 的 时 间 。 然 后 ， 工 程 师 将 软件 分 为 8 段 ， 并 测量 处 理 单 个 数据 项 所 花 
费 的 时 间 。 测 量 结果 显示 了 什么 ? 

19.4 大 多 数 数据 流水 线 硬件 用 于 专门 任务 (例如 ， 图 形 处 理 )。 在 所 有 计算 机 上 安装 数据 流水 线 会 增 
加 所 有 程序 的 性 能 吗 ? 请 说 明理 由 。 

19.5 经 理 注意 到 公司 有 10 个 数据 中 心 ， 且 每 个 数据 中 心 都 有 一 些 空闲 的 计算 机 。 这 些 数据 中 心 遍 布 
全 国 各 地 ， 且 数据 中 心 之 间 使 用 低速 互联 网 连接 通信 。 经 理 提 出 ， 并 不 是 在 本 地 数据 中 心 使 用 
计算 机 ， 而 是 在 所 有 10 个 数据 中 心 之 间 建 立 “巨型 数据 流水 线 ” 以 提高 性 能 。 对 于 这 个 想法 ， 
你 给 经 理 什 么 建议 ? 

19.6 你 将 获得 一 个 在 一 个 核 上 运行 的 程序 ， 并 被 要 求 将 程序 划分 为 多 个 部 分 ， 这 些 部 分 将 在 数据 
流水 线 中 使 用 多 达 8 个 核 。 你 可 以 通过 两 种 方式 划分 程序 。 在 一 种 方式 中 ， 每 个 核 执行 680、 
2000、1300、1400、800、1900、1200 和 200 条 指令 。 在 另 一 种 方式 中 ， 每 个 核 执 行 680、 
1400、1300、1400、1400、1000、1200 和 1100 条 指令 。 你 选择 哪 种 划分 ， 为 什么 ? 

19.7 有 一 条 同 构 流水 线 ， 其 中 包含 4 个 处 理 器 ， 每 个 处 理 器 每 秒 处 理 100 万 条 指令 ， 并 且 处 理 一 个 
数据 项 分 别 需 要 50、60、40 和 30 条 指令 。 假 设 所 有 类 型 的 指令 都 有 一 个 恒定 的 执行 时 间 ， 求 
这 条 同 构 流 水 线 的 最 大 吞吐 量 。 

19.8 ”在 上 一 题 中 ,与 不 使 用 流水 线 的 架构 相 比 ， 吞 吐 量 的 相对 增益 是 多 少 ? 什么 是 最 大 加 速 比 ? 

19.9 通过 考虑 速度 分 别 为 每 秒 100 万 、120 万 、90 万 和 100 万 条 指令 的 异 构 处 理 器 来 扩展 上 一 题 。 

19.10 ”如 果 要 求 你 应 用 超 流水 线 来 细 分 现 有 流水 线 的 其 中 一 段 ， 你 应 该 选择 哪个 流水 段 ? 为 什么 ? 
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20.1 引言 


与 功 耗 与 总 能 耗 的 相关 主题 已 经 在 计算 机 系统 设计 中 变 得 越 来 越 重 要 。 对 于 便携 设备 ， 
设计 力求 在 最 大 化 电池 续航 和 用 户 所 需 的 特征 之 间 取 得 一 个 平衡 。 对 于 大 型 的 数据 中 心 ， 功 
耗 和 随 之 而 来 的 冷却 需求 都 是 设计 和 可 扩展 中 的 关键 因素 。 

本 章 简要 介绍 这 个 主题 ， 并 不 会 深入 细节 。 本 章 定义 术语 ， 解 释 数字 电路 功率 消耗 的 类 
型 ， 描 述 功率 和 能 耗 之 间 的 关系 。 最 重要 的 是 ， 本 章 描述 如 何 用 软件 系统 来 关闭 系统 的 部 分 
功能 从 而 降低 功 耗 。 


20.2 ”功率 的 定义 


我 们 将 功率 定义 为 能 量 消耗 的 速率 (例如 ， 转 移 或 转化 )。 对 于 电子 电路 ， 功 率 是 电压 
和 电流 的 乘积 。 采 用 物理 学 的 定义 ， 功 率 是 以 瓦特 (W) 为 单位 度量 的 ， 其 中 瓦特 被 定义 为 
1 焦耳 每 秒 ( J/s)。 电 子 设备 的 瓦特 数 越 大 ， 它 消耗 的 功率 就 越 大 ; 一 些 设备 用 千瓦 ( 10*W) 
来 计量 功率 。 对 于 大 型 数据 中 心 集群 ,集群 中 所 有 计算 机 消耗 的 总 功率 非常 大 ， 故 以 兆 瓦 
( 10”W) 来 计量 。 对 于 小 的 手持 设备 (例如 手机 )， 因 为 它们 的 功率 需求 非常 小 ， 所 以 我 们 一 
般 使 用 毫 瓦 (mW) 计量 。 

重要 的 是 要 注意 ， 一 个 系统 的 功率 可 以 随时 间 而 变化 。 例 如 ， 智 能 手机 在 屏幕 关闭 时 比 
屏幕 使 用 时 的 功率 更 小 。 因 此 ， 确 切 地 说 ， 我 们 将 时 刻 1 的 瞬时 功率 记 为 P(1)， 它 是 + 时 刻 
电压 V(t) 和 电流 TD 的 乘积 : 

P(D)=V()XI() (20.1) 

我 们 将 看 到 ， 无 论 对 非常 大 或 非常 小 的 计算 系统 (例如 ， 数 据 中 心 的 超级 计算 机 或 小 型 
的 电池 供电 设备 )， 系 统 调节 其 功率 随时 间 变 化 的 能 力 都 是 重要 的 。 

系统 使 用 的 最 大 功率 对 于 大 型 系统 (例如 大 型 数据 中 心中 的 计算 机 集群 ) 尤其 重要 。 我 
们 使 用 “峰值 瞬时 功率 ”这 个 术语 来 指 系统 需要 的 最 大 功率 。 在 构建 大 型 计算 系统 时 ， 峰 值 
功率 尤为 重要 ， 因 为 设计 者 必须 满足 峰值 功率 的 要 求 。 例 如 ， 在 规划 数据 中 心 时 ， 设 计 者 必 
须 保 证 电力 设施 能 够 提供 足够 的 功率 以 满足 峰值 瞬时 功率 的 需求 。 


20.3 能 耗 的 定义 

从 上 文中 ， 系 统 使 用 的 总 能 量 以 给 定时 间 内 功率 的 总 和 来 计算 ,单位 是 焦耳 。 电 能 通常 
是 功率 与 单位 时 间 的 乘积 。 通 常 时 间 单 位 为 小 时 ， 功 率 的 单位 为 千瓦 、 兆 瓦 或 者 毫 瓦 。 因 
此 ， 数 据 中 心 在 一 周 内 所 消耗 的 电能 以 千瓦 时 (kWh) 或 者 兆 瓦 时 ( MWh) 来 计量 ， 而 电池 
在 一 周 内 所 消耗 的 电能 以 毫 瓦 时 (mWh) 来 计量 。 

如 果 功 率 利用 率 是 恒定 的 ， 则 可 以 轻松 地 通过 将 功率 了 乘 以 做 功 的 时 间 来 计算 。 例 如 ， 
在 从 到 4 的 时 间 段 中 所 消耗 的 能 量 由 下 式 确定 : 


E=PX(t-t) (20.2 ) 
一 个 功率 为 6kW 的 系统 1 小 时 内 消耗 6kWh， 和 一 个 功率 为 3kW 的 系统 2 个 小 时 内 消 
耗 的 能 耗 相 同 。 
正如 上 文中 所 描述 的 ， 大 多 数 系统 的 功 耗 不 是 恒定 的 。 相 反 ， 功 耗 是 随 着 时 间 变 化 的 。 
由 于 功率 连续 变化 ， 因 此 我 们 定义 能 耗 为 瞬时 功率 随 着 时 间 的 积分 : 


E= P(t)dt (20.3) 


虽然 功率 定义 为 一 个 瞬时 测量 的 随 着 时 间 变 化 的 量 , 但 一 些 电 子 系统 明确 地 标 出 系统 的 
平均 功率 值 。 回 想 一 下 ,功率 是 能 耗 被 使 用 的 速率 ， 这 意味 着 在 一 段 时 间 内 的 平均 功率 可 以 
通过 将 这 个 时 间 段 内 所 使 用 的 能 耗 除 以 时 间 来 计量 : 

E 


a ( 20.4) 
(一 如 ) 


于 avg 一 


20.4 数字 电路 的 功 耗 

回想 一 下 ,数字 电路 是 由 逻辑 门 构成 的 。 在 最 底层 ， 所 有 的 逻辑 门 都 是 由 晶体 管 构成 
的 ， 晶 体 管 以 两 种 方式 消耗 功率 2 : 

e 切换 功率 P, 或 动态 功率 (Pi)。 

。 漏电 功率 (Pu)。 

切换 功率 。 术 语 “ 切 换 ” 指 的 是 响应 输入 的 输出 变化 。 当 一 个 或 者 多 个 门 电路 的 输入 改 
变 , 输出 将 随 之 改变 。 输 出 的 改变 可 以 仅仅 受 流 过 晶体 管 的 电流 的 影响 。 单 个 晶体 管 在 切换 
时 消耗 更 多 功率 ， 这 意味 着 系统 的 总 功率 增加 。 

漏电 功率 。 虽 然 我 们 认为 数字 电路 具有 二 进 制 值 ( 开 或 者 关 )， 但 是 固体 物理 学 家 认识 
到 晶体 管 是 不 完美 的 开关 ， 也 就 是 说 ， 当 晶体 管 关 闭 时 ， 一 些 电 子 仍 然 可 以 穿 过 边界 。 因 
此 ， 当 把 数字 电路 接 和 人 电源 中 时 ， 即 使 输出 不 打开 ， 仍 然 会 有 一 定量 的 电流 流 过 。 我 们 使 用 
“漏电 流 ” 来 指 当 电路 不 工作 时 流 过 的 电流 。 

对 于 给 定 的 晶体 管 ， 漏 电流 的 量 是 微不足道 的 。 然 而 ， 单 个 处 理 器 可 以 有 十 亿 个 晶体 
管 ， 这 意味 着 总 的 漏电 流 可 以 很 大 。 事 实 上 ， 对 于 一 些 数字 系统 来 说 ， 漏 电流 占 到 功率 利用 
率 的 一 半 以 上 。 这 一 点 可 以 概括 如 下 : 


在 一 个 典型 的 计算 系统 中 ， 系 统 功率 的 40% 到 60% 是 漏电 功率 。 一 


在 电源 管理 的 讨论 中 还 有 -一点 是 很 重要 的 。 基 本 原则 是 ， 当 电源 接 通 时 漏电 流 总 是 
凑 在 i 


漏电 流 只 能 通过 关闭 电路 中 的 电源 消除 。 


20.5 CMOS 数字 电路 的 切换 功 耗 
我 们 关注 的 是 使 用 软件 来 管理 数字 电路 的 功率 使 用 。 为 了 理解 电源 管理 技术 ， 我 们 需要 


日 功率 除了 这 两 个 主要 来 源 之 外 ， 还 消耗 少量 的 短路 功率 ， 因 为 CMOS 晶体 管 在 切换 时 在 源 极 和 基 极 间 短 暂 
接 通 。 
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一 些 基 本 概念 。 首 先 ， 我 们 将 考虑 切换 所 消耗 的 总 能 耗 。 门 的 一 次 切换 变化 所 需 的 能 耗 被 表 
示 为 E,， 由 下 式 确定 : 


1 
E=7 Ch (20.5) 


其 中 C 是 电容 值 ， 依 赖 于 底层 的 CMOS 技术 ,Vs 是 电路 工作 的 电压 ®。 

为 了 理解 式 (20.5 ) 中 的 功率 推论 ， 可 以 考虑 时 钟 。 时 钟 以 固定 频率 产生 方 波 。 假 设 时 
钟 信号 与 反 相 器 相连 。 在 一 个 时 钟 周 期 中 ， 当 时 钟 信 号 在 从 0 变 为 1 且 从 1 变 为 0 时 ， 反 相 
器 的 输出 将 改变 两 次 。 因 此 ， 如 果 时 钟 的 周期 为 Toa， 则 所 使 用 的 平均 功率 为 : 


Ra 
avg 还 


clock 


(20.6 ) 


时 钟 频率 是 其 周期 的 倒数 : 


Fs=_l (20.7j 


Ci 





clock 
这 意味 着 ， 我 们 可 以 根据 时 钟 频率 重 写 式 (20.6 ): 
有 二 C 多 AR ( 20.8 ) 


有 一 个 用 于 计算 平均 功率 的 附加 项 : 电路 输出 切换 时 电路 的 一 个 系数 。 我 们 用 a 表示 这 
个 系数 ，0 三 a 二 1， 因而 表示 平均 功率 的 式 ( 20.8 ) 的 最 终 形式 为 : 


= C Va Psa ( 20.9 


式 (20.9 ) 展示 了 功率 的 三 个 主要 成 分 ， 与 以 下 讨论 相关 。 常 数 C 是 一 个 由 底层 技术 决 
定 的 属性 ， 不 能 轻易 改变 。 因 此 ， 可 以 控制 的 三 个 部 分 是 : 

e 电路 的 活动 因子 a。 

e 时 钟 频 率 Fu。 

e 电路 的 电压 Fa。 


20.6 冷却 、 功 耗 密度 和 功率 墙 


回想 一 下 ， 瞬 时 功率 通常 与 数据 中 心 或 其 他 大 型 设备 相关 ， 其 中 的 关键 是 峰值 功率 利用 
率 。 除 了 电力 设施 能 和 否 提供 峰值 所 需 的 兆 瓦 级 功率 之 外 ， 设 计 者 还 关注 功率 使 用 的 两 个 其 他 
方面 一 一 冷却 和 功 耗 密度 。 

冷却 。 数 字 设备 工作 时 产生 热量 。 一 个 巨大 的 功率 负载 意味 着 许多 设备 正在 运行 ， 并 且 
每 个 设备 都 在 产生 热量 。 因 此 ， 产 生 的 热量 与 功率 消耗 有 关 。 所 有 电子 电路 都 需要 冷却 ， 否 
则 电路 就 有 可 能 过 热 或 烧 坏 。 对 于 最 小 型 设备 ， 热 量 散发 到 周围 的 空气 中 ,不 需要 冷却 措 
施 。 对 于 中 等 尺寸 的 设备 ， 需 要 用 风扇 不 断 将 冷 空气 吹 过 电路 来 进行 冷却 ; 空气 必须 通过 供 
热 通 风 与 空气 调节 (HVAC) 系统 进入 。 在 最 极端 的 情况 下 ， 通 过 空气 冷却 是 不 够 的 ， 还 需 
要 液体 冷却 的 形式 。 

功 耗 密度 。 虽 然 电 路 产生 的 总 热量 决定 了 所 需 的 总 制冷 量 ， 但 热量 的 另 一 方面 也 很 重 





日 符号 Vs 用 于 指定 操作 CMOS 电路 的 电压 ; 如 果 理 解 上 下 文 ， 则 可 以 使 用 符号 VV (电压 )。 


要 : 在 小 面积 范围 上 的 热量 聚集 。 例 如 ， 在 一 个 数据 中 心 ， 如 果 相 邻 地 放置 许多 计算 机 ， 它 
们 就 会 过 热 。 因 此 ， 应 该 增加 计算 机 之 间 和 机 架 之 间 的 距离 ， 以 使 冷 空 气流 过 机 架 ， 从 而 带 
走 热量 。 

功 耗 密度 对 于 单个 集成 电路 也 是 很 重要 的 ， 其 中 功 耗 密度 指 的 是 单位 面积 硅 片 耗 散 的 功 
耗 。 一 直 以 来 ， 半 导体 行业 遵循 摩尔 定律 。 单 个 晶体 管 的 尺寸 不 断 减 小 ， 每 十 八 个 月 ， 一 个 
芯片 上 的 晶体 管 的 数量 就 增加 一 倍 。 然 而 ， 遵 循 摩尔 定律 也 会 带 来 负面 影响 : 功 耗 密度 也 增 
加 了 。 随 着 功 耗 密度 的 增加 ， 单 位 面积 产生 的 热量 增加 ， 这 意味 着 现在 的 处 理 器 每 平方 厘米 
产生 的 热量 比 以 前 的 多 。 

因此 ， 唱 体 管 的 封装 已 经 导致 了 一 个 主要 问题 : 我 们 将 要 达到 芯片 的 散热 极限 。 工 程 师 
把 这 种 限制 称 为 功 耗 墙 ， 因 为 它 意味 着 功率 不 能 增加 。 以 目前 的 冷却 技术 ， 这 个 极限 可 以 近 
似 为 : 

功 耗 墙 = 100 W/cm (20.10 ) 


20.7 能 耗 使 用 

功率 是 测量 电流 的 瞬时 流动 ， 与 此 不 同 ， 能 耗 测量 在 给 定时 间 内 消耗 的 总 功率 。 对 于 使 
用 电池 的 便携 式 设 备 来 说 ， 更 应 格外 关注 能 耗 。 我 们 可 以 把 电池 想象 为 一 个 装着 能 量 的 桶 ， 
设想 设备 可 以 根据 需要 提取 能 量 。 电 池 能 为 一 个 设备 供电 的 总 时 间 〈 以 毫 瓦 时 计量 ) 可 由 电 
池 中 的 总 能 量 算出 。 

将 电池 建 模 为 能 量 桶 (类似 于 一 桶 水 ) 过 于 简单 化 。 然 而 ， 水 桶 的 三 个 特点 适用 于 电池 。 
第 一 ， 像 桶 里 的 水 一 样 ， 储 存在 电池 里 的 能 量 会 蒸发 掉 。 对 于 电池 而 言 ， 它 的 化 学 和 物理 过 
程 是 不 完美 的 ， 内 部 电阻 造成 了 电池 内 的 微量 电流 。 虽 然 这 个 电流 很 小 , 但 电池 长 时 间 放 置 
(例如 一 年 ) 将 导致 电量 的 损失 。 第 二 ， 就 像 从 桶 里 倒 出 水 时 一 些 水 会 溅 酒 ， 在 电池 使 用 中 ， 
一 些 能 量 也 会 丢失 。 第 三 ， 就 像 水 可 以 以 不 同 的 速率 从 桶 中 抽取 一 样 ， 电 池 可 以 以 不 同 的 速 
率 消耗 能 量 。 第 三 个 属性 背后 的 重要 思想 是 电池 在 较 小 的 电流 ( 即 较 小 功率 ) 下 变 得 更 有 效 。 
因此 ,设计 者 应 寻找 使 用 电池 供电 的 设备 的 功率 最 小 化 的 方法 。 


20.8 功率 管理 


上 述 讨论 表明 ， 在 所 有 情况 下 ， 降 低 功 耗 是 可 取 的 。 在 大 型 数据 中 心 ， 降 低 功 耗 则 降低 
了 产生 的 热量 。 对 于 小 型 便携 式 设备 ， 降 低 功 耗 则 会 延长 电池 寿命 。 这 就 引出 两 个 问题 什 
么 样 的 方法 可 以 用 来 降低 功 耗 ? 哪些 功率 降低 技术 可 以 通过 软件 控制 ? 

回想 式 (20.9 )， 其 中 有 三 个 主要 影响 功 耗 的 因素 : 电路 活动 因子 a、 时 钟 频率 Foo 和 
电路 操作 电压 Vs。 下 一 节 描 述 了 如 何 利用 电压 和 频率 来 降低 功 耗 ; 后 面 的 小 节 考 虑 电路 活 
动因 子 。 


20.8.1 电压 和 延迟 


因为 功率 取决 于 电压 的 平方 ， 所 以 降低 电压 会 产生 最 大 的 功率 降低 。 然 而 ， 电 压 不 是 一 
个 独立 变量 。 首 先 ， 降 低 电 压 会 增加 门 延 迟 ， 即 门 电 路 在 输入 改变 后 改变 输出 所 花费 的 时 
间 。 精 心 设计 处 理 器 以 便 所 有 硬件 单元 能 根据 时 钟 操作 。 如 果 单 个 门 延迟 变 得 足够 大 ， 则 整 
个 硬件 单元 (多 个 门 电路 ) 的 延迟 将 超过 设计 规范 。 

对 于 当前 的 技术 ， 延 迟 可 以 通过 下 式 估计 : 
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KV 
RD 
其 中 有 是 所 使 用 的 电压 ，Viw 是 由 底层 CMOS 技术 确定 的 阔 值 电压 , 玉 是 取决 于 该 技术 的 
常数 ,，B 是 常数 (当前 技术 下 约 为 1.3 )。 

功率 与 电压 有 关 的 另 一 方面 是 漏电 流 。 漏 电流 取决 于 电路 的 温度 和 CMOS 技术 的 阔 值 
电压 。 降 低 电 压 可 以 减 小 漏电 流 ， 但 有 一 个 有 趣 的 结论 : 低 电 压 意 味 着 增加 延迟 ， 这 会 导致 
总 能 耗 增 大 。 为 了 理解 为 什么 增加 漏电 流 是 重要 的 ， 回 想 一 下 ， 漏 电功率 可 以 占 电路 使 用 功 
率 的 40% 到 60%。 要 点 是 : 


延 信 =p (20.11) 


虽然 功率 取决 于 电压 的 平方 ， 但 降低 电压 会 增加 延迟 ， 从 而 增加 总 能 耗 的 使 用 。 


尽管 有 这 些 问题 , 但 电压 仍 是 降低 功率 的 最 显著 因素 。 因 此 ， 固 体 物理 和 硅 技 术 研 究 人 
员 发 明了 在 非常 低 电压 下 可 以 正确 操作 的 晶体 管 。 例 如 ， 早 期 的 数字 电路 工作 在 5V， 而 用 
于 蜂窝 电话 的 当前 技术 工作 在 更 低 的 电压 。 一 个 充满 电 的 手机 电池 提供 4V 电压 ， 电 池 放 电 
使 得 电路 持续 工作 。 事 实 上 ， 使 用 镍 氨 电 池 的 手机 仍然 使 用 1.2V 的 电池 来 接 通 电话 ， 而 当 
电压 降 到 0.8V 以 下 时 ， 则 认为 手机 电池 耗 尽 。( 锂 电池 则 在 3.65V 时 耗 尽 )。 


20.8.2 ”降低 时 钟 频率 


时 钟 频率 是 影响 功率 利用 率 的 第 二 个 因素 。 理 论 上 ， 功 率 与 时 钟 频率 成 正比 ， 因 此 降低 
时 钟 频率 可 以 节省 功率 。 实 际 上 ， 降 频 降低 了 性 能 ， 而 性 能 可 能 是 有 实时 性 要 求 的 系统 的 关 
键 (例如 ， 视 频 和 音乐 播放 系统 )。 

有 趣 的 是 ， 调 节 时 钟 频率 可 以 与 降低 电压 结合 使 用 。 也 就 是 说 ， 较 慢 的 时 钟 频率 可 以 适 
应 低压 造成 的 延迟 增加 。 因 此 ， 如 果 设 计 者 随 着 电压 降低 来 降低 时 钟 频率 ， 性 能 将 受到 影 
响 ， 但 电路 会 正确 操作 。 

当时 钟 频率 和 电压 都 降低 时 ， 引 起 的 功率 降低 会 是 巨大 的 。 在 特定 的 情况 下 ， 将 时 钟 频 
率 降低 为 原来 的 一 半 ， 人 允许 电压 除 以 1.7。 因 为 电压 在 功率 方程 ( 式 (20.9 )) 中 被 平方 ， 所 
以 降低 电压 使 所 得 功率 急剧 降低 。 对 于 这 个 例子 ， 得 到 的 功率 大 约 是 原始 功率 的 13%。 节 能 
取决 于 所 使 用 的 技术 ， 总 体 思路 可 以 概括 如 下 : 


SO engisosciokattwesreounsrr 
:省 计 天 汪清 时 放生 风光 全 二 ， 计 让 汪 二 提 语 汪 时 放 入 各 二 


英特尔 发 明了 一 个 有 趣 的 方法 ， 通 过 动态 变化 来 减少 时 钟 频率 。 这 个 想法 很 简单 。 当 处 
理 器 繁忙 时 ， 操 作 系 统 将 时 钟 频率 设 很 高 。 如 果 处 理 器 超过 预 设 的 热 极限 ( 即 过 热 ) 或 功率 
限制 (例如 ， 电 池 即 将 耗 尽 )， 则 操作 系统 降低 时 钟 频率 ， 直 到 处 理 器 在 规定 的 范围 内 工作 。 
例如 ， 时 钟 频率 可 以 通过 100MHz 的 倍数 动态 地 增加 或 减 小 。 如 果 处 理 器 空 凋 ， 可 以 降低 时 
钟 频率 以 节省 功 耗 。 英 特 尔 宣传 “ 割 频 加 速 ”(Turbo Boost) 特性 而 不 是 “动态 减速 ”能 力 来 
扭转 营销 局 势 。 


20.8.3 更 慢 的 时 钟 频率 和 多 核 处 理 器 
在 21 世纪 初 ， 同 一 时 间 的 功率 成 为 一 个 问题 ， 芯 片 供 应 商 引 入 了 多 核 处 理 器 。 从 表面 
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上 看 ， 向 多 核 架构 转变 似乎 适得其反 ， 因 为 两 个 核 将 需要 单 核 两 倍 的 功率 。 当 然 ， 多 个 核心 
可 以 共享 一 些 电 路 〈 例 如 ， 内 存 或 总 线 接 口 )， 这 说 明 双 核 芯片 的 功 耗 不 会 正好 是 单 核 芯 片 
的 两 倍 。 不 过 ， 第 二 个 核心 增加 了 大 量 额 外 的 功率 需求 。 

如 果 降 低 功 耗 是 重要 的 ， 那 厂商 为 什么 会 引入 更 多 的 核心 呢 ? 为 了 理解 这 个 问题 ， 仔 细 
观察 时 钟 频率 。 在 多 核 芯片 出 现 之 前 ， 处 理 器 时 钟 频率 随 着 新 处 理 器 的 出 现 ， 每 隔 几 年 就 增 
加 。 从 上 面 的 讨论 中 我 们 知道 ， 降 频 到 原来 的 一 半 可 以 降低 电压 并 显著 降低 功 耗 。 现 在 考虑 
双核 芯片 。 假 设 每 个 核心 运行 的 频率 为 单 核 处 理 器 的 一 半 ， 此 时 双核 版 本 的 计算 能 力 仍然 近 
似 与 两 倍 频率 运行 的 单 核 一 样 。 然 而 ， 就 功率 利用 率 而 言 ， 电 压 可 以 降低 ， 意 味 着 双核 处 理 
器 中 的 每 个 核心 都 需要 单 核 处 理 器 所 需 的 功率 的 正 倍 。 结 果 ， 多 核 芯片 的 功 耗 大约 是 单 核 版 
本 的 2F 倍 。 如 果 玉 小 于 50%， 较 慢 的 双核 芯片 功 耗 更 低 。 如 果 例 子 中 的 下 是 15%， 双 核 芯 
片 在 等 效 计算 能 力 下 只 需 原 始 功 率 的 30%。 我 们 可 以 总 结 一 下 : 









当然 ， 以 上 讨论 为 多 核 处 理 提供 了 一 个 重要 的 假设 。 也 就 是 说 ， 它 假定 计算 任务 可 以 划 
分 给 多 个 核心 。 然 而 ， 第 18 章 指 出 并 行经 验 并 不 乐观 。 对 于 并 行 方法 不 可 行 的 计算 ， 较 慢 
的 时 钟 会 使 系统 无 法 正常 使 用 。 即 使 某 些 并 行 可 行 的 情况 下 ， 内 存 竞争 和 其 他 低 效 率 也 会 导 
致 失望 的 性 能 。 当 并 行 同时 处 理 多 个 输入 项 时 ， 两 个 核心 的 总 吞吐 量 可 以 与 单个 更 快 的 核心 
相同 。 然 而 ， 延 迟 ( 即 ， 处 理 给 定 条 目 所 需 的 时 间 ) 更 高 。 最 后 ， 应 该 清楚 ， 我 们 讨论 的 重 
点 是 切换 功率 一 一 漏电 流 仍然 是 一 个 重要 问题 。 


20.9 能 耗 使 用 的 软件 控制 


系统 上 的 软件 通常 很 少 有 或 没有 增 减 电压 的 权限 。 相 反 ， 软件 通 常 局 限于 两 个 基本 
操作 : 

e 时 钟 门 控 。 

e 功率 门 控 。 

时 钟 门 控 。 该 术语 是 指 将 时 钟 频 率 降低 到 零 ， 从 而 有 效 地 停止 处 理 器 。 在 处 理 器 停止 之 
前 ， 程 序 员 必 须 安排 一 种 方式 以 重启 它 。 通 常 ， 代 码 镜像 保存 在 持续 供电 的 内 存 中 。 因 此 ， 
每 当 处 理 器 重新 启动 时 ， 镜 像 就 准备 就 绪 。 

功率 门 控 。 这 个 术语 指 的 是 切断 处 理 器 的 电源 。 一 种 特殊 的 具有 极 低 漏电 流 的 固态 器 件 
可 用 于 切断 电源 。 与 时 钟 门 控 一 样 ， 程 序 员 必 须 为 重启 做 出 安排 ， 既 可 以 保存 然后 恢复 内 存 
镜像 拷贝 ， 也 可 以 保持 内 存 供电 以 保留 镜像 。 

提供 功率 门 控 能 力 的 系统 不 适用 于 整个 系统 的 门 控 。 相 反 ， 系 统 被 划分 成 块 ， 门 控 可 
应 用 于 其 中 一 些 块 ， 而 其 他 的 则 可 继续 正常 操作 。 内 存 缓 存 形 成 了 一 个 特别 重要 的 功率 区 
块 一 一 如 果 内 存 缓存 断 电 ， 所 有 缓存 的 数据 都 将 丢失 。 我 们 从 第 12 章 知道 ， 缓 存 对 于 性 能 
非常 重要 。 因 此 ， 缓 存 可 以 放置 在 不 会 断 电 的 功率 区 块 中 ， 处 理 器 的 其 他 部 分 则 会 断 电 。 

一 些 处 理 器 扩展 了 这 个 想法 ， 提 供 了 一 套 可 以 用 软件 来 降低 功 耗 的 低 功 耗 模 式 。 供 应 
商 使 用 多 种 名 称 来 描述 这 些 模 式 ， 如 睡眠 、 深 度 睡眠 和 休眠 。 我 们 将 使 用 通用 名 称 LPM0、 
LPM1、LPM2、LPM3 和 LPM4。 通 常 ， 低 功 耗 模式 按 层 次 排列 ，LPM0 断 开 电 路 数量 最 少 ， 
恢复 最 快 ; LPM4 是 最 深度 睡眠 模式 ， 几 乎 关闭 了 整个 处 理 器 。 因 此 ， 从 LPM4 重新 启动 比 
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其 他 低 功 耗 模式 要 长 得 多 。 


20.10 选择 何 时 睡眠 和 何 时 唤醒 


有 两 个 必须 解答 的 问题 : 什么 时 候 系统 进入 睡眠 模式 ， 什 么 时 候 被 唤醒 ? 选择 何 时 从 睡 
眠 模式 中 醒 来 通常 是 直截了当 的 : 按 需 醒 来 。 也 就 是 说 ， 硬 件 一 直 等 待 ， 直 到 请 求 处 理 器 的 
事件 发 生 ， 然 后 硬件 将 处 理 器 退出 睡眠 模式 。 例 如 ， 屏 幕 保 护 程 序 在 用 户 移动 鼠标 、 触 摸 触 
摸 屏 或 按 下 键盘 上 的 键 时 重新 启动 正常 显示 。 

何 时 进入 低 功 耗 模式 更 为 复杂 。 动 机 是 降低 功率 利用 率 。 因 此 ， 如 果子 系统 在 相当 长 
的 时 间 内 不 被 需要 ， 则 我 们 希望 挂 起 子 系统 ( 即 关 闭 它 )。 因 为 我 们 通常 不 能 知道 未 来 的 需 
求 ， 大 多 数 系统 采用 一 种 启发 式 方法 来 估计 子 系统 何 时 被 需要 : 如 果 一 个 子 系统 在 足够 长 的 
时 间 内 不 活动 ， 便 假设 它 将 在 更 长 的 时 间 内 不 活动 。 通 常 ， 如 果 处 理 器 或 设备 在 W 秒 内 保 
持 不 活动 ， 则 处 理 器 或 设备 进入 睡眠 模式 。 启 发 式 也 可 以 应 用 于 使 设备 进入 更 深 的 睡眠 。 如 
果 处 理 器 在 轻 睡 眠 状态 保持 天 秒 ， 则 硬件 将 其 调整 为 更 深 的 睡眠 状态 〈 即 关闭 处 理 器 的 额外 
部 分 )。 

睡眠 模式 的 超时 值 Y 应 该 设置 为 多 少 ?” 与 用 户 交 互 的 子 系统 一 般 允 许 用 户 设 定 超时 时 
间 。 例 如 ， 屏 幕 保护 程序 允许 用 户 设 定 在 进入 屏保 程序 前 ， 输 入 设备 应 保持 多 长 时 间 无 输 
入 。 人 允许 用 户 设 定 超时 时 间 意 味 着 每 个 用 户 可 以 根据 需要 来 定制 系统 。 

在 不 涉及 人 类 偏好 的 系统 中 ， 决 定 
超时 时 间 则 需要 更 细致 的 分 析 。 一 个 简 
单 的 模型 有 助 于 说 明 计算 。 对 于 该 模型 ， 
假设 两 种 状态 : 运行 状态 ， 其 中 处 理 器 
以 全 功率 运行 ; 关闭 状态 ， 其 所 有 功率 
都 被 去 除 。 当 处 理 器 进行 转换 时 ， 消 耗 
的 时 间 以 Tauaom 和 Tu 表示。 图 20.1 
表示 该 简化 模型 。 图 20.1 在 低 功 耗 模式 间 转 换 的 简单 模型 

每 次 转换 过 程 ( 即 保存 状态 信息 或 
为 转换 准备 1/O 请 求 ) 中 都 产生 能 耗 。 为 了 简化 计算 ， 我 们 将 假设 转换 过 程 中 功率 恒定 。 因 
此 ， 转 换 过 程 消耗 的 能 量 为 所 使 用 的 功率 乘 以 经 过 的 时 间 : 


E B= Pdowa Xx Tw ( 20: 这 ) 





shutdown 


而 且 
大 i 人 wakeup (20.13) 
理解 转换 、 系 统 运行 和 系统 关闭 时 所 需 的 能 量 ， 可 以 使 我 们 能 够 评估 潜在 的 节能 情况 。 
本 质 上 ， 如 果 在 相同 时 间 内 关机 、 睡 眠 和 稍 后 唤醒 比 持续 运行 消耗 更 少 的 能 量 ， 那 么 关机 是 
有 助 于 减少 功 耗 的 。 
设 :是 所 考虑 的 时 间 间 隔 ， 如 果 假 定 运行 系统 所 使 用 的 功率 是 恒定 的 ， 则 系统 保持 运行 
1 时 间 所 消耗 的 能 量 是 : 
Er=Pn Xt (20.14) 
如 果 系 统 进入 睡眠 模式 持续 时 间 t 所 消耗 的 能 耗 包 括 每 个 转换 阶段 所 需 的 能 量 加 上 当 处 
理 器 关闭 时 所 消耗 的 能 量 Pon (如 果 有 的 话 ): 
E t= stbetla(t Ti | (20.15 ) 
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如 果 满 足下 式 ， 关 闭 系 统 将 有 益 于 减少 能 耗 : 
(20.16 ) 
联 立 式 (20.12 ) 到 (20.15 )， 不 等 式 可 以 用 单个 自 变量 + 来 表示 。 因 此 ， 有 可 能 计算 出 一 个 
用 于 关闭 系统 以 节能 的 上 的 最 小 临界 值 。 
当然 ， 上 面 的 分 析 基 于 一 个 简化 的 模型 。 功 率 可 能 不 会 保持 恒定 ; 转换 所 需 的 时 间 和 功 
率 可 能 取决 于 系统 的 状态 。 更 重要 的 是 ， 分 析 的 重点 是 切换 功 耗 ， 而 没有 考虑 漏电 功 耗 。 然 





20.11 睡眠 模式 和 网 络 设备 


许多 设备 有 低 功 耗 模式 ， 用 于 节约 能 耗 。 例 如 ， 打 印 机 通常 在 不 活动 的 入 分 钟 后 睡眠 。 
类 似 地 ， 无 线 网 络 适 配器 也 可 以 进入 睡眠 模式 以 降低 功 耗 。 对 于 网 络 适 配器 ， 处 理 输出 〈 传 
输 ) 是 平常 的 ， 因 为 每 当 应 用 程序 产生 一 个 输出 包 时 ， 适 配器 就 可 以 被 唤醒 。 然 而 ， 输 入 
(接收 ) 对 低 功 耗 模式 极 具 挑战 ， 因 为 计算 机 无 法 知道 其 他 设备 什么 时 候 才 会 向 它 发 送 数据 。 

作为 一 个 例子 ，Wi-Fi (802.11 ) 标准 包括 节 电 轮 询 (PSP) 模式 。 为 了 节能 ， 笔 记 本 
电脑 和 其 他 使 用 Wi-Fi 的 设备 关闭 适配器 并 且 只 能 周期 性 地 唤醒 它 。 我 们 用 术语 工作 循环 
来 描述 设备 运行 然后 关闭 的 重复 循环 。 当 无 线 访 问 接 人 点 发 射 信号 时 ， 收 发 器 必须 被 唤醒 。 
Wi-Fi 基站 周期 性 地 发 送信 标 ， 该 信 标 包括 基站 仍 有 未 发 送 的 数据 包 的 接收 者 列表 。 信 标 足 
够 频繁 以 保证 当 设 备 适 配器 处 于 工作 循环 的 运行 期 时 能 接收 信 标 。 如 果 设 备 发 现 自己 在 接收 
者 列表 上 ， 则 该 设备 被 唤醒 以 接收 数据 包 。 

我 们 使 用 两 种 基本 方法 来 让 网 络 适 配器 不 会 在 不 确定 是 否 丢 失 数据 包 的 情况 下 睡眠 。 第 
一 种 方法 ， 每 个 设备 将 其 休眠 周期 与 无 线 基 站 同步 。 第 二 种 方法 ， 基 站 多 次 发 送 每 个 数据 
包 ， 直 到 接收 设备 被 唤醒 并 接收 它 为 止 。 


20.12 ”小结 


功率 是 能 量 消耗 的 瞬时 速率 度量 ; 能 耗 是 在 给 定时 间 内 使 用 功率 的 上 总和。 数字 电路 使 用 
动态 或 切换 功率 ( 即 ， 对 输入 变化 的 响应 引起 的 输出 变化 ) 和 漏电 功率 。 漏 电功率 可 占 电路 
总 功率 的 40% 一 60%。 

通过 使 部 分 电路 不 活动 、 降 低 时 钟 频率 、 降 低 电 压 ， 可 以 使 功 耗 降低 。 降 低 电 压 具 有 最 
大 的 效果 ， 但 也 增加 了 延迟 。 功 耗 密度 是 指 单位 空间 内 的 功 耗 ; 功 耗 密度 与 热量 有 关 。 功 耗 
墙 指 的 是 每 平方 厘米 大 约 100 瓦 的 极限 ， 这 是 使 用 目前 的 冷却 技术 从 硅 世 片 中 移 除 热 量 的 系 
统 的 最 大 功 耗 密度 。 

时 钟 门 控 和 功率 门 控 可 以 用 来 关闭 电路 (或 电路 的 一 部 分 )。 对 于 使 用 电池 的 设备 ， 电 
源 管理 系统 的 总 体 目 标 是 总 能 耗 的 减少 。 由 于 进入 和 退出 低 功 耗 ( 睡 眠 ) 模式 消耗 能 量 ， 所 
以 如 果 进 入 睡眠 模式 所 需 的 能 耗 小 于 保持 运行 所 需 的 能 耗 ， 睡 眠 才 有 必要 。 一 个 简化 的 模型 
表明 计算 涉及 关闭 和 唤醒 系统 的 成 本 。 

设备 也 可 以 使 用 低 功 耗 模式 。 网 络 接口 提出 了 挑战 ， 因 为 接口 必须 唤醒 以 接收 数据 包 ， 
并 且 计 算 机 并 不 知道 数据 包 何 时 到 达 。Wi-Fi 标准 包括 一 个 节 电 轮 询 模式 。 
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习题 

20.1 估算 18、19 节 所 述 的 天 河 二 号 超级 计算 机 所 需 的 功率 。 提 示 : 首先 查找 单个 处 理 器 使 用 的 瓦特 
数 估计 值 。 

20.2 ”假设 时 钟 频率 降低 10%， 所 有 其 他 参数 保持 不 变 。 功 率 降 低 了 多 少 ? 

20.3 ”假设 电压 Vs 降低 10%， 所 有 其 他 参数 保持 不 变 。 功 率 降 低 了 多 少 ? 


20.4 使 用 式 ( 20.16 ) 查找 1 的 损 溢 平 衡 值 。 
20.5 扩展 图 20.1 所 示 的 模型 ， 变 成 3 状态 系统 ， 其 中 处 理 器 有 睡眠 模式 和 深度 睡眠 模式 。 
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评估 性 能 
21.1 引言 


前 面 介 绍 了 计算 机 体系 结构 用 于 构建 计算 机 系统 的 三 种 基本 机 制 : 处 理 器 、 内 存 和 IO 
设备 。 它 们 描述 了 每 种 机 制 ， 并 解释 了 其 突出 特征 。 前 面 的 章节 考虑 了 两 种 用 于 提高 计算 性 
能 的 技术 : 并 行 性 和 流水 线 技 术 。 

本 章 从 更 广泛 的 角度 来 看 待 性 能 。 本 章 研 究 如 何 测 量 性 能 ， 并 讨论 架构 师 如 何 评估 指令 
集 。 更 重要 的 是 ， 本 章 介 绍 阿 姆 达 定律 ， 并 解释 计算 机 体系 结构 带 来 的 后 果 。 


21.2 测量 计算 能 力 和 性 能 

我 们 如 何 测 量 计算 能 力 ? 是 什么 让 一 个 计算 机 系统 比 另 一 个 更 好 ? 这 些 问题 引起 了 科学 
界 的 研究 ， 引 起 了 以 商业 计算 机 供应 商 销售 和 营销 部 门 为 代表 的 激烈 争论 ， 并 产生 了 各 种 
答案 。 

引起 性 能 评估 的 主要 问题 源 于 通用 计算 机 系统 的 灵活 性 : 计算 机 被 设计 用 于 执行 各 种 任 
务 。 更 重要 的 是 ， 因 为 优化 涉及 在 备 选 方案 中 进行 选择 ， 所 以 优化 给 定 任务 的 体系 结构 意味 着 
该 体系 结构 对 于 其 他 任务 而 言 不 是 最 佳 的 。 因 此 ， 计 算 机 系统 的 性 能 取决 于 系统 的 使 用 方式 。 

我 们 可 以 总 结 一 下 : 





都 可 以 声称 他 们 拥有 功能 最 强大 的 计算 机 。 例 如 ， 计 算 机 高 速 执行 矩阵 乘法 的 供应 商 在 测 
量 性 能 时 使 用 和 矩阵 乘法 示例 ， 而 计算 机 高 速 执行 整数 运算 的 供应 商 在 测量 性 能 时 使 用 整数 示 
例 。 两 家 供应 商都 声称 他 们 的 计算 机 性 能 最 佳 。 其 次 ， 从 科学 的 角度 来 看 ， 我 们 可 以 看 到 ， 
没有 任何 一 种 计算 机 系统 性 能 衡量 标准 可 以 满足 所 有 情况 。 这 一 点 对 于 理解 性 能 评估 至 关 
重要 : 





能 指标 ， 因 为 没有 一 种 测量 可 以 满足 所 有 情况 。 


21.3 ”计算 能 力 的 测量 


回想 一 下 ， 早 期 的 计算 机 系统 由 一 个 很 少 有 或 没有 IO 能 力 的 中 央 处 理 器 组 成 。 因 此 ， 
计算 机 性 能 的 早期 测量 集中 在 CPU 的 执行 速度 上 。 但 是 ， 即 使 性 能 测量 仅 限 于 CPU， 也 需 
要 采取 多 种 测量 指标 。 计 算 机 系统 优化 目的 之 间 最 重要 的 区 别 在 于 : 

。 整数 计算 。 

。 浮 点 数 计算 。 
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由 于 科学 和 工程 计算 在 很 大 程度 上 依赖 于 浮 点 运算 ， 因 此 采用 浮 点 运算 的 应 用 通常 称 为 
科学 应 用 ， 由 此 产生 的 计算 称 为 科学 计算 。 当 评估 计算 机 在 科学 应 用 中 的 表现 时 ， 工 程 师 完 
全 聚焦 于 浮 点 运算 的 性 能 。 他 们 忽略 整数 运算 的 速度 ， 并 测量 浮 点 运算 的 速度 (特别 是 浮 点 
加 法 、 减 法 、 乘 法 和 除法 )。 当 然 ， 加 法 和 减法 通常 比 乘法 和 除法 更 快 ， 并 且 程 序 包含 其 他 
指令 (例如 ,调用 函数 和 控制 迭代 的 指令 )。 然 而 ,在 许多 计算 机 上 ， 浮 点 运算 比 典型 的 整 
数 指令 花费 的 时 间 长 得 多 ， 浮 点 运算 在 程序 的 整体 性 能 中 占 主导 地 位 。 

工程 师 不 是 报告 执行 浮 点 运算 所 需 的 时 间 ， 而 是 报告 每 单位 时 间 可 执行 的 浮 点 运算 的 数 
量 。 特 别 是 ， 主 要 度量 是 硬件 每 秒 可 执行 的 浮 点 运算 的 平均 数 (FLOPS)。 

当然 ， 浮 点 运算 速度 只 适用 于 科学 计算 ; 浮 点 硬件 的 速度 与 使 用 整数 的 程序 无 关 。 更 重 
要 的 是 ， 对 于 不 提供 浮 点 指令 的 RISC 处 理 器 ，FLOPS 的 测量 没有 意义 。 因 此 ， 作 为 测量 浮 
点 性 能 的 替代 方案 ,供应 商 可 以 选择 排除 浮 点 并 报告 处 理 器 每 单位 时 间 可 以 执行 的 其 他 指令 
的 平均 数量 。 通 常 ， 这 些 供 应 商 测量 每 秒 百 万 条 指令 数 (MIPS)。 

简单 的 性 能 测量 (如 MIPS 或 FLOPS) 仅 提 供 对 性 能 的 粗略 估计 。 要 了 解 原因 ， 请 考虑 
执行 指令 所 需 的 时 间 。 例 如 ， 考 虑 一 个 执行 浮 点 乘法 或 除法 需要 浮 点 加 法 或 减法 的 两 倍 时 间 
的 处 理 器 。 如 果 我 们 假设 加 法 或 减法 指令 花费 0 纳 秒 并 对 四 种 指令 类 型 中 的 每 一 种 进行 相 
等 的 加 权 ， 那 么 计算 机 执行 浮 点 指令 的 平均 时 间 为 Te: 


CO+O+2XxO+2XxO 


二 =1.5O 纳 秒 / 指令 (21.1) 


, 4 
然而 ， 当 计算 机 执行 加 法 和 减法 时 ， 所 需 的 时 间 仅 为 每 条 指令 0 纳 秒 ( 即 ， 比 平均 值 少 
33%)。 类 似 地 ， 当 执行 乘法 或 除法 时 ， 计 算 机 每 条 指令 需要 2x2@ 纳 秒 ( 即 ， 比 平均 值 多 
33%)。 在 实践 中 ， 加 法 和 除法 所 需 的 时 间 可 以 相差 两 倍 以 上 ， 这 意味 着 实际 性 能 可 以 变化 
超过 33%。 习 题 21.2 要 求 计算 一 个 可 能 的 比例 。 
重点 是 : 






由 于 某 些 指令 执行 时 间 要 比 其 他 指令 长 得 多 ， 因 此 执行 指令 所 需 的 平均 时 间 仅 提供 
了 扯 略 的 性 能 近似 值 。 所 需 的 实际 时 间 取 决 于 执行 哪些 指 信 。 | 


21.4 应 用 相关 的 指令 数 


我 们 如 何 才 能 对 性 能 进行 更 准确 的 评估 ? 答案 在 于 评估 特定 应 用 程序 的 性 能 。 例 如 ， 假 
设 我 们 需要 知道 在 两 个 NxN 和 矩阵 相 乘 时 浮 点 硬件 单元 将 如 何 执行 。 通 过 检查 程序 ， 可 以 导 
出 一 组 表达 式 ， 这 些 表达 式 给 出 将 执行 的 浮 点 加 法 、 减 法 、 乘 法 和 除法 的 数量 (作为 N 的 函 
数 )。 例 如 ， 假 设 乘 以 一 对 Nx V 和 矩阵 需要 N 次 浮 点 乘法 和 六 -NM 次 浮 点 加 法 。 如 果 每 次 加 
法 需要 0 纳 秒 并 且 每 次 乘法 . 需要 2 x 0 纳 秒 ， 则 两 个 矩阵 相 乘 所 需 总 共 时 间 是 : 

Toa=2 XQOXN+QOX(N-N’) (1.2) 

作为 精确 分 析 的 替代 方案 ， 工 程 师 使 用 加 权 平均 值 。 也 就 是 说 ， 不 是 计算 每 条 指令 的 确 
切 执 行 次 数 ， 而 是 使 用 近似 百分比 。 例 如 ， 假 设 在 许多 输入 数据 集 上 运行 图 形 程序 ， 计 算 浮 
点 运算 的 数量 以 获得 图 21.1 中 的 列表 。 
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8 5$13 508 


1 537 162 


1 064 188 
709 458 


图 21.1 在 许多 输入 值 上 运行 的 图 形 应 用 程序 的 指令 计数 示例 。 第 三 列 显示 每 种 指令 类 型 的 相 
对 百分比 


一 旦 获得 了 一 组 指令 计数 ,就 可 以 使 用 加 权 平 均 来 评估 硬件 的 性 能 。 当 图 形 应 用 程序 在 
上 述 硬件 上 运行 时 ,我们 希望 每 个 浮 点 指令 的 平均 时 间 为 : 
Tw=0.72QO+0.13Q+0.09X20O+0.06 X20O=1.16Q 纳 秒 / 指令 (Cola) 
如 示例 所 示 ， 加 权 平 均值 可 以 与 等 权 平均 显著 不 同 。 在 这 种 情况 下 ， 加 权 平均 值 比 使 用 
相同 指令 权重 获得 的 式 (21.1 ) 中 的 平均 值 小 23%。 


21.5 ”指令 混合 

虽然 它 提供 了 更 准确 的 性 能 测量 ， 但 上 述 加 权 平 均 示 例 仅 适用 于 一 个 特定 应 用 ， 仅 评估 
浮 点 性 能 。 我 们 可 以 给 出 更 一 般 的 评估 吗 ? 有 一 种 方法 变 得 流行 : 使 用 大 量程 序 来 获得 每 种 
类 型 指令 的 相对 权重 ,然后 使 用 相对 权重 来 评估 给 定 体系 结构 的 性 能 。 也 就 是 说 ,不 是 关注 
浮 点 运算 ， 而 是 为 每 种 指令 类 型 保留 一 个 计数 器 (例如 ， 整 数 算术 指令 、 位 移 指令 、 子 程序 
调用 、 条 件 分 支 )， 并 且 使 用 计数 器 和 相对 权重 来 计算 一 个 加 权 的 平均 性 能 。 

当然 ， 权 重 取决 于 所 选择 的 具体 程序 。 因 此 ， 为 了 尽 可 能 准确 ,我们 必须 选择 代表 典型 
负载 的 程序 。 架 构 师 选择 代表 典型 程序 的 指令 混合 。 

除了 帮助 评估 计算 机 的 性 能 之 外 ， 指 令 混 合 还 有 助 于 架构 师 设 计 有 效 的 指令 集 。 架 构 师 
草拟 一 个 指令 集 ， 为 每 条 指令 分 配 预 期 成 本 ， 并 使 用 指令 混合 中 的 权重 来 查看 所 提出 的 指 
令 集 将 如 何 执行 。 本 质 上 ， 架 构 师 使 用 指令 混合 来 评估 所 提出 的 架构 将 如 何在 典型 程序 上 执 
行 。 如 果 性 能 不 令 人 满意 ， 架 构 师 可 以 改变 设计 。 








21.6 标准 化 测试 程序 

应 该 使 用 什么 指令 混合 来 比较 两 种 架构 的 性 能 ? 要 回答 这 个 问题 ， 我 们 需要 知道 如 何 使 
用 计算 机 一 一 计算 机 要 运行 的 程序 ， 以 及 程序 将 接收 的 输入 类 型 。 实 质 上 ， 我们 需要 找到 一 
组 典型 的 应 用 程序 。 工 程 师 和 架构 师 使 用 术语 “基准 ”来 指 代 此 类 程序 一 一 基准 测试 提供 了 
标准 工作 负载 ， 使 得 计算 机 可 以 被 测量 。 

当然 ， 设 计 一 个 基准 很 困难 ， 如 果 每 个 供应 商 创建 一 个 单独 的 基准 ， 整 个 社区 就 不 会 
受益 。 为 了 解决 这 个 问题 ，20 世纪 80 年 代 成 立 了 一 家 独立 的 非 营 利 性 公司 。 该 公司 被 命名 
为 标准 性 能 评估 公司 ( SPEC)， 旨 在 “建立 、 维 护 和 认可 一 套 可 应 用 于 最 新 一 代 高 性 能 计算 
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机 的 标准 化 相关 基准 ”。SPEC 设计 了 一 系列 用 于 比较 性 能 的 标准 基准 。 例 如 ，SPEC 
cint2006 基准 测试 用 于 评估 整数 性 能 ，SPEC cfp2006 基准 测试 用 于 评估 浮 点 性 能 。 

SPEC 生成 的 基准 主要 用 于 测量 ,而 不 是 设计 。 也 就 是 说 ， 每 个 基准 都 包含 一 组 运行 和 
测量 的 程序 。 运 行 SPEC 基准 测试 ( 称 为 SPECmark) 产生 的 分 数 在 业界 经 常 被 引用 为 独立 
于 供应 商 的 计算 机 性 能 测量 。 

有 趣 的 是 ，SPEC 已 经 制作 了 许多 基准 测试 ， 每 个 测试 都 测试 了 性 能 的 一 个 方面 。 例 如 ， 
SPEC 提供 六 个 独立 的 基准 测试 ， 专 注 于 整数 算术 ， 另 外 十 四 个 基准 测试 专注 于 浮 点 性 能 的 
各 个 方面 。 此 外 ，SPEC 还 提供 基准 来 评估 计算 机 消耗 的 功率 、Java 环境 的 性 能 以 及 运行 网 
络 文件 系统 (NFS) 的 UNIX 系统 在 软件 开发 任务 期 间 进行 远程 文件 访问 的 性 能 。 


21.7 1/O 和 内 存 瓶颈 


CPU 性 能 仅 占 计算 机 系统 整体 性 能 的 一 部 分 。 个 人 计算 机 的 用 户 已 经 意识 到 ， 更 快 的 
CPU 或 更 多 核心 不 能 保证 对 所 有 计算 任务 的 更 快 响应 。 作 者 的 一 位 同事 抱怨 说 ， 尽 管 CPU 
能 力 每 十 年 增加 一 个 数量 级 ， 但 启动 应 用 程序 所 需 的 时 间 似 乎 也 在 增加 。 

是 什么 阻止 了 更 快 的 CPU 提高 整体 速度 ? 我们 已 经 看 到 了 一 个 答案 : 冯 ' 诺 依 曼 瓶颈 
( 即 内 存 访问 )。 回 想 一 下 ， 内 存 的 速度 会 影响 获取 指令 的 速率 以 及 访问 数据 的 速率 。 因 此 ， 
不 是 仅仅 测量 CPU 性 能 ， 而 是 设计 一 些 基准 来 测量 内 存 性 能 。 内 存 基准 测试 由 一 个 重复 访 
问 内 存 的 程序 组 成 。 一 些 内 存 基准 测试 则 在 测试 顺序 访问 ( 即 ， 访 问 连续 字 节 )， 而 其 他 内 
存 基 准 测 试 则 在 测试 随机 访问 。 更 重要 的 是 ， 内 存 基准 测试 还 会 重复 引用 内 存 位 置 来 测试 内 
存 缓存 。 

正如 关于 IO 的 章节 所 指出 的 那样 ， 外 围 设 备 和 外 围 设备 间 通 信 的 总 线 也 可 能 成 为 瓶 
颈 。 因 此 ， 一 些 基准 测试 旨 在 测试 TO 设备 的 性 能 。 例 如 ， 测 试 磁盘 的 基准 测试 将 重复 执行 
写 入 和 读 取 操作 ， 每 个 操作 都 将 一 块 数据 传输 到 磁盘 ， 然 后 再 读 取 数 据 。 与 内 存 一 样 ， 某 些 
磁盘 基准 测试 侧重 于 在 访问 顺序 数据 块 时 测量 性 能 ， 而 其 他 基准 测试 则 侧重 于 在 访问 随机 块 
时 测量 性 能 。 


21.8 硬件 与 软件 的 权衡 


计算 机 性 能 的 基本 原则 之 一 源 于 硬件 和 软件 的 相对 速度 : 硬件 (特别 是 为 专门 用 途 设计 
的 硬件 ) 比 软件 更 快 。 因 此 ， 将 给 定 功能 移动 到 硬件 ， 将 导致 比 在 软件 中 执行 更 高 的 性 能 。 
换 句 话说 ,架构 师 可 以 通过 添加 专用 硬件 单元 来 提高 整体 性 能 。 

来 自 一 个 同样 重要 的 原则 的 推论 是 : 软件 比 硬件 提供 更 多 的 灵活 性 。 结 果 是 用 硬件 实现 
的 功能 无 法 改变 。 因 此 ， 架 构 师 可 以 通过 允许 软件 处 理 更 多 功能 来 提高 整体 灵活 性 和 通用 
性 。 最 近 FPGA 的 使 用 是 硬件 功能 转向 软件 的 一 个 例 芯片， 而 
是 使 用 FPGA 以 对 设计 中 的 功能 进行 编程 。 

关键 是 使 用 硬件 还 是 软件 代表 了 一 种 权衡 : 


。 通过 将 功能 从 软件 移动 到 硬件 ， 可 以 提高 性 能 ; 通过 将 功能 从 硬件 转移 到 软件 ， 可 
以 提高 灵活 性 。 





日 描述 来 自 SPEC 章程 (参见 http://www.spec.org )。 
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21.9 选择 拟 优化 的 部 件 一 一 阿 姆 达尔 定律 


当 架 构 师 需要 提高 性 能 时 ， 架 构 师 必须 选择 要 优化 的 项 。 在 设计 中 添加 硬件 会 增加 成 
本 ， 专 用 的 高 速 硬件 特别 昂贵 。 因 此 ， 架 构 师 不 能 仅仅 指定 使 用 任意 数量 的 高 速 硬 件 。 相 
反 ， 必 须 谨 慎 选 择 将 使 用 传统 硬件 处 理 的 功能 ， 以 及 用 高 速 硬 件 优化 的 功能 。 

应 该 如 何 做 出 选择 ? 计算 机 架构 师 Gene Amdahl 发 现 ， 优 化 很 少 使 用 的 功能 是 浪费 资 
源 。 例 如 ， 考 虑 用 于 处 理 除 零 的 硬件 或 用 于 关闭 计算 机 系统 的 电路 。 优 化 这 种 硬件 没有 什么 
意义 ， 因 为 它 很 少 使 用 。 

Amdahl 建议 ， 通 过 优化 占用 时 间 最 多 的 功能 ， 可 以 获得 最 大 的 性 能 提升 。 他 的 原则 
( 即 阿 姆 达尔 定律 ) 专注 于 那些 每 个 都 需要 进行 大 量 计算 的 操作 或 最 频繁 执行 的 操作 。 通 常 ， 
该 原则 以 潜在 的 加 速 比 的 形式 陈述 : 


















和 站 二 
带 来 的 部 


阿 姆 达 尔 定律 可 以 定量 地 表达 为 : 使 用 可 优化 时 间 的 硬件 的 比例 和 该 优化 措施 





件 加 速 比 来 表示 整体 加 速 比 。 式 (21.4 ) 给 出 了 整体 加 速 比 : 
人 (21.4) 


可 优化 时 间 的 硬件 的 比例 
所 带 来 的 部 件 加 速 比 
该 等 式 适用 于 两 个 极端 情况 。 如 果 从 未 使 用 过 可 优化 的 硬件 ( 即 可 优化 时 间 的 硬件 的 比 
例 为 0 )， 则 没有 加 速 比 , 式 (21.4 ) 的 比率 为 !。 如 果 在 100% 的 时 间 内 使 用 可 优化 的 硬件 
( 即 ， 可 优化 时 间 的 硬件 的 比例 为 1 )， 整 体 加 速 比 等 于 可 优化 的 硬件 的 加 速 比 。 比 例 在 0 到 
1 之 间 时 ， 根 据 使 用 可 优化 的 硬件 的 比例 对 总 体 加 速 比 进行 加 权 。 


21.10” 阿 姆 达尔 定律 和 并 行 系统 


第 18 章 讨论 了 并 行 体系 结构 ， 并 解释 了 性 能 令 人 失望 (的 原因 )。 特 别 是 ， 处 理 器 之 间 
通信 的 开销 和 对 诸如 内 存 和 IO 总 线 之 类 的 共享 资源 的 争 用 限制 了 系统 的 有 效 速度 。 因 此 ， 
包含 W 个 处 理 器 的 并 行 系统 的 性 能 不 会 达到 单个 处 理 器 的 Y 倍 。 

有 趣 的 是 ， 阿 姆 达尔 定律 可 直接 适用 于 并 行 系统 ， 并 解释 了 为 什么 添加 更 多 处 理 器 无 济 
于 事 。 通 过 优化 处 理 能 力 〈 即 添加 额外 的 处 理 器 ) 可 以 实现 的 加 速 限于 处 理 器 被 使 用 的 时 间 
量 。 由 于 并 行 系统 大 部 分 时 间 都 在 等 待 通信 或 总 线 访问 而 不 是 使 用 处 理 器 ， 因 此 添加 额外 的 
处 理 器 不 会 显著 提高 性 能 。 


21.11 小 结 


存在 各 种 性 能 指标 。 处 理 器 性 能 的 简单 度量 包括 计算 机 每 秒 可 执行 的 浮 点 运算 的 平均 数 
(FLOPS) 或 计算 机 每 秒 可 执行 的 平均 指令 数 (MIPS)。 更 复杂 的 度量 使 用 加 权 平 均值 ， 其 中 
更 频繁 使 用 的 指令 的 权重 更 大 。 可 以 通过 计算 程序 或 一 组 程序 中 的 指令 来 导出 权重 ; 这 些 权 
重 特定 于 所 使 用 的 应 用 程序 。 我 们 所 说 的 权重 对 应 于 指令 混合 ， 在 评估 指令 集 时 是 有 用 的 。 

基准 是 指 用 于 评估 性 能 的 标准 化 程序 或 程序 集 ; 每 个 基准 可 选 来 表示 一 种 典型 的 计算 。 
一 些 最 著名 的 基准 测试 由 SPEC 公司 制作 ， 称 为 SPECmarks。 除 了 测量 整数 和 浮 点 运算 的 各 


1 一 可 优化 时 间 的 硬件 的 比例 + 
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个 方面 的 性 能 之 外 ，SPEC 基准 测试 还 可 用 于 测量 远程 文件 访问 等 机 制 。 

阿 姆 达尔 定律 帮助 架构 师 选 择 要 优化 的 功能 (例如 ， 从 软件 转移 到 硬件 ， 或 从 传统 硬件 
转移 到 高 速 硬 件 )。 该 定律 指出 ， 要 优化 的 功能 应 占 最 多 时 间 。 阿 姆 达 定 律 解释 了 为 什么 并 
行 计算 机 系统 并 不 总 能 从 大 量 处 理 器 中 受益 。 


习题 

21.1 编写 一 个 C 程序 来 测量 整数 加 法 和 减法 运算 符 的 性 能 。 各 执行 至 少 10 000 次 操作 并 计算 每 种 操 
作 的 平均 时 间 。 

21.2 编写 一 个 计算 程序 ， 测 量 整数 加 法 和 整数 除法 之 间 执 行 时 间 的 差异 。 执 行 两 种 操作 各 100 000 
次 ， 并 比较 运行 时 间 的 差异 。 重 复 实验 ， 并 验证 计算 机 上 没有 其 他 活动 干扰 测量 。 

21.3 扩展 上 一 题 中 的 测量 ， 以 比较 16 位 、32 位 和 (如 果 你 的 计算 机 支持 ) 64 位 整数 加 法 的 性 能 。 也 
就 是 说 ， 根 据 需要 使 用 short、int、long 或 long long 变量 。 请 解释 结果 。 

21.4 计算 机 专业 人 员 通 常 使 用 加 法 、 减 法 、 乘 法 和 除法 作为 衡量 处 理 器 性 能 的 方法 。 但 是 ， 许 多 程 
序 也 使 用 人 逻辑 运算 ,例如 人 逻辑 与 、 逻 辑 或 、 位 补 码 、 右 移 、 左 移 等 。 测 量 此 类 操作 ， 并 将 性 能 
与 整数 加 法 进行 比较 。 

21.5 如 果 浮 点 加 法 和 减法 各 需要 0 微 秒 ， 浮 点 乘法 和 除法 各 需要 3O 微 秒 ， 所 有 四 个 运算 所 需 的 平 
均 时 间 是 多 少 ? 

21.6 扩展 上 一 题 并 计算 加 法 时 间 和 平均 时 间 之 间 的 百分比 差异 ， 以 及 乘法 时 间 和 平均 时 间 之 间 的 百 
分 比 差异 。 

21.7 在 上 一 题 中 ， 在 启用 编译 器 优化 的 情况 下 重复 测量 并 确定 相对 加 速 比 。 

21.8 编写 一 个 程序 ， 比 较 执行 整数 算术 运算 所 需 的 平均 时 间 和 引用 内 存 所 需 的 平均 时 间 。 计 算 内 存 
成 本 与 整数 算术 成 本 的 比率 。 

21.9 编写 一 个 程序 ， 比 较 执 行 浮 点 运算 和 整数 运算 所 需 的 平均 时 间 。 例 如 ， 比 较 执 行 10 000 次 浮 点 
加 法 所 需 的 平均 时 间 和 执行 10 000 次 整数 加 法 所 需 的 平均 时 间 。 

21.10 程序 员 决 定 测 量 内 存 系统 的 性 能 。 该 程序 员 发 现 ， 根 据 DRAM 芯片 制造 商 的 说 法 ， 访 问 物理 
内 存 中 的 整数 所 需 的 时 间 是 80 纳 秒 。 程 序 员 编 写 汇 编 语言 程序 ， 将 值 存 储 到 一 个 内 存 位 置 40 
亿 次， 测量 所 花费 的 时 间 ， 并 计算 平均 性 能 。 令 人 惊讶 的 是 ， 每 次 写 操作 只 需要 平均 52 纳 秒 。 
这 样 的 结果 如 何 成 为 可 能 ? 

21.11 把 上 一 题 反 过 来 ， 并 说 明 为 什么 难以 准确 测量 物理 内 存 。 

21.12 ” 散 列 函数 将 值 放 在 称 为 散 列表 的 数组 中 的 随机 位 置 中 。 程 序 员 发 现 ， 即 使 关闭 内 存 缓存 ， 在 极 
大 的 散 列 表 ( 16MB) 中 写 人 然后 查找 50 000 个 值 的 性 能 也 比 在 较 小 的 散 列表 ( 16KB) 中 使 用 
相同 的 数据 差 。 请 解释 原因 。 
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体系 结构 的 例子 和 层次 





22.1 引言 


前 面 的 章节 解释 了 理解 计算 机 体系 结构 所 必需 的 概念 和 术语 。 这 些 音节 讨论 了 处 理 器 、 
内 存 和 IO 的 基本 方面 ， 并 解释 了 每 个 方面 的 作用 。 前 面 章节 也 讨论 了 如 何 使 用 并 行 性 和 流 
水 线 来 提高 性 能 。 

本 章 考虑 一 些 架构 示例 。 本 章 不 是 介绍 新 的 想法 ， 而 是 展示 前 面 章节 的 想法 如 何 用 于 描 
述 和 解释 数字 系统 的 各 个 方面 。 选 择 的 例子 展示 了 一 系列 可 能 性 。 


22.2 体系 结构 的 层次 


回顾 前 面 的 章节 ， 可 以 在 多 个 抽象 层次 上 呈现 体系 结构 。 为 了 帮助 我 们 了 解体 系 结构 概 
念 如 何 广 泛 应 用 于 数字 系统 ， 我 们 将 探索 体系 结构 规范 的 层次 结构 。 层 次 结构 的 大 小 范围 从 
完整 的 计算 机 系统 到 单个 集成 电路 上 的 小 功能 单元 。 我 们 使 用 术语 系统 级 架构 (有 时 称 为 宏 
观 架 构 )、 板 级 架构 和 芯片 级 架构 (有 时 称 为 微观 架构 ) 来 表征 范围 。 对 于 每 个 级 别 ， 我 们 
将 看 到 前 面 章节 中 的 概念 使 我 们 能 够 理解 基本 组 件 及 其 互 连 。 此 外 ,我们 将 看 到 ， 在 给 定 层 
次 ， 可 以 指定 逻辑 ( 即 概念 ) 架构 或 指定 更 详细 的 实现 。 图 22.1 总 结 了 我 们 将 考虑 的 层次 。 


带 有 处 理 器 、 内 存 和 I/ O 设备 的 完整 计算 机 。 典 型 的 系统 架构 描 
述 了 组 件 间 的 总 线 互 连 


构成 计算 机 系统 一 部 分 的 独立 电路 板 。 典 型 的 电路 板 架构 撒 述 了 芯 
片 间 的 互 连 以 及 总 线 接口 

用 于 电路 板 的 单个 集成 电路 。 典 型 的 芯片 架构 描述 了 功能 单元 和 门 
的 互 连 





图 22.1 体系 结构 的 概念 层次 以 及 各 自 的 目的 


22.3 ”系统 级 架构 一 一 个 人 电子 计算 机 


从 概念 上 讲 ,个 人 计算 机 由 处 理 器 、 内 存 和 一 组 IO 设备 组 成 ,这些 设备 都 连接 到 单个 
总 线 。 然 而 ， 在 实践 中 ， 即 使 是 个 人 计算 机 也 包含 各 种 各 样 的 总 线 和 互 连 机 制 ， 每 个 总 线 和 
互 连 机 制 都 旨 在 填补 特定 的 角色 。 

底层 硬件 的 一 些 变化 和 复杂 性 源 于 特殊 的 性 能 要 求 和 成 本 。 例 如 ， 视 频 卡 需要 比 软盘 更 
高 的 数据 吞吐 量 ， 而 高 分 辩 率 屏幕 需要 比 低 分 辩 率 屏幕 更 高 的 吞吐 量 。 遗 憾 的 是 ， 将 设备 互 
连 到 高 速 总 线 的 硬件 成 本 远 高 于 将 设备 互 连 到 低速 总 线 的 硬件 ， 这 意味 着 使 用 多 个 总 线 可 以 
降低 系统 的 总 体 成 本 。 

多 个 IO 总 线 的 第 二 个 动机 源 于 供应 商 希 望 为 更 新 、 更 强大 的 系统 提供 低 成 本 迁移 路 
径 。 也 就 是 说 ， 供 应 商 致 力 于 创建 一 种 处 理 器 ， 该 处 理 器 具有 更 高 性 能 和 更 多 功能 的 优 
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势 ， 同 时 保留 了 使 用 现 有 外 围 设备 的 能 力 。 我 们 使 用 术语 向 后 兼容 性 来 表征 使 用 现 有 硬件 的 
能 力 。 

向 后 兼容 性 对 于 总 线 体 系 结构 尤其 重要 ， 因 为 总 线形 成 IO 设备 和 处 理 器 之 间 的 互 连 。 
计算 机 供应 商 如 何 设 计 新 的 、 更 高 速 的 总 线 ， 同 时 仍 保留 连接 旧 外 围 设备 的 能 力 ? 一 种 可 能 
性 是 创建 具有 多 个 总 线 接口 的 处 理 器 。 更 便宜 的 答案 在 于 使 用 桥接 。 


22.4 总 线 互 连 和 桥接 


通过 历史 示例 ， 可 以 很 容易 地 理解 使 用 桥接 来 实现 向 后 兼容 性 。 在 历史 的 某 个 时 刻 ， 所 
有 个 人 计算 机 都 使 用 由 IBM 公司 开发 的 工业 标准 体系 结构 (ISA) 总 线 。PC 的 外 围 设备 设 
计 有 ISA 总 线 接口 。 后 来 ， 开 发 了 更 高 速 的 总 线 架 构 一 一 外 围 组 件 互 连 ( PCI) 总 线 。PC 总 
线 的 这 两 个 标准 是 不 兼容 的 一 一 插入 ISA 总 线 的 接口 无 法 连接 到 PCI 总 线 。 因 此 ， 如 果 用 
户 拥有 ISA 设备 ， 则 他 不 太 可 能 购买 仅 接受 PCI 设备 的 计算 机 。 

为 了 吸引 计算 机 所 有 者 将 他 们 的 计算 机 升级 到 带 有 PCI 总 线 的 计算 机 ， 供 应 商 创建 了 一 
个 桥接 器 来 连接 新 的 PCI 总 线 和 旧 的 ISA 总 线 。 逻 辑 上 ， 桥 接 器 提供 了 图 22.2 所 示 的 互 连 。 





具有 PCI 接 口 的 设备 
一 人 





A 
具有 ISA 接 口 的 设备 
图 22.2 使 用 桥接 器 互 连 ISA 总 线 和 PCI 总 线 的 PC 架构 的 概念 视图 。 该 桥 使 得 可 以 将 较 旧 的 
ISA 设备 与 较 新 的 处 理 器 一 起 使 用 


在 图 22.2 中 ，CPU 和 任何 具有 PCI 接口 的 IO 设备 直接 连接 到 PCI 总线。 桥接 器 提供 
与 ISA 总 线 的 连接 ，ISA 总 线 由 具有 ISA 接口 的 IO 设备 使 用 。 在 最 好 的 情况 下 ， 桥 接 器 提 
供 的 互 连 是 透明 的 。 也 就 是 说 ， 各 自 使 用 本 地 总 线 协议 进行 通信 而 不 了 解 互 连 一 一 CPU 对 
ISA 设备 进行 寻 址 ， 就 好 像 它们 连接 到 PCI 总 线 一 样 ，ISA 设备 响应 就 像 CPU 连接 到 ISA 
总 线 一 样 。 


22.5 控制 器 芯片 和 物理 架构 


虽然 图 22.2 中 所 示 的 体系 结构 提供 了 PC 体系 结构 的 概念 性 解释 ， 但 实现 方式 比 图 22.2 
中 所 示 的 要 复杂 得 多 。 首 先 ， 虽 然 PC 提供 外 部 设备 用 于 连接 到 每 个 总 线 的 插 槽 ， 但 PC 内 
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部 不 使 用 相同 的 技术 。 相 反 ，PC 通常 包含 两 个 专用 控制 器 芯片 ， 供 所 有 总 线 和 内 存 互 连 。 
其 次 ， 控 制 器 芯片 被 配置 为 给 出 多 个 总 线 的 错觉 。 

要 了 解 对 控制 器 芯片 的 需求 ， 请 考虑 PC 中 所 需 的 功能 。 架 构 师 需要 连接 处 理 器 、 内 存 
和 LO 总 线 (或 总 线 )。 除 了 提供 电气 兼容 的 互 连 之 外 ， 架 构 师 还 必须 设计 一 种 允许 一 个 组 
件 与 另 一 个 组 件 通信 的 机 制 。 例 如 ，CPU 和 LO 设备 都 需要 访问 内 存 。 

不 幸 的 是 ， 复 制 硬件 接口 很 昂贵 。 特 别 是 架构 师 无 法 构建 一 个 系统 ， 其 中 每 个 组 件 都 有 
多 个 接口 单元 ， 每 个 接口 单元 处 理 与 另 一 个 组 件 的 通信 。 例 如 ， 虽 然 处 理 器 和 大 多 数 IO 设 
备 需要 访问 内 存 ， 但 是 考虑 到 成 本 ， 限 制 架 构 师 为 每 个 设备 提供 内 存 接口 。 

为 了 节省 工作 和 费用 ， 架 构 师 经 常 采 用 集中 控制 器 芯片 的 方法 。 控 制 器 芯片 包含 一 组 天 
个 硬件 接口 ， 每 个 类 型 的 硬件 各 一 个 ， 并 在 它们 之 间 转 发 请 求 。 当 硬件 单元 需要 访问 另 一 个 
硬件 单元 时 ， 请 求 总 是 进入 控制 器 。 控 制 器 将 每 个 传人 请 求 转换 为 适当 的 形式 ， 然 后 将 请 求 
转发 到 目标 硬件 单元 。 类 似 地 ， 控 制 器 翻译 每 个 回复 。 

关键 的 想法 是 : 


”架构 师 使 用 控制 器 芯片 来 提供 计算 机 中 组 件 之 间 的 互 连 ， 人 
备 一 组 接口 或 构建 一 组 离散 桥 以 互 连 总 线 更 便宜 。 人 








22.6 ”虚拟 总 线 

控制 器 芯片 引入 了 一 种 有 趣 的 可 能 性 。 由 于 总 线 用 于 通信 ， 我 们 希望 将 两 个 或 更 多 设备 
连接 到 每 个 总 线 (例如 ， 处 理 器 和 磁盘 )。 但 是 ， 在 使 用 控制 器 芯片 的 计算 机 中 ， 创 建 一 个 
只 包含 一 个 连接 设备 的 总 线 是 合理 的 。 例 如 ， 如 果 只 有 一 个 设备 需要 ISA 总 线 而 所 有 其 他 
设备 都 使 用 PCI 总线 ， 则 可 以 创建 一 个 控制 器 芯片 ， 该 芯片 使 用 ISA 协议 与 ISA 设备 通信 
并 使 用 PCI 协 议 与 其 他 设备 通信 。 即 使 控制 器 芯片 使 用 ISA 协议 与 ISA 设备 通信 ， 计 算 机 
也 不 需要 用 于 ISA 设备 的 插 槽 ， 并 且 通 常 意 义 上 不 具有 物理 ISA 总 线 。 

也 就 是 说 : 
> 控制 器 芯片 可 以 通过 直接 连接 提供 有 一 条 总 线 的 错觉， 和 
的 物理 插 模 和 接线 。 ee Er : ee 


Ea 


控制 器 芯片 的 概念 可 以 通过 直接 连接 提供 总 线 的 错觉 ， 这 使 得 架构 师 可 以 泛 化 总 线 的 概 
念 。 可 以 使 用 硅 芯片 创建 透明 的 总 线 ， 代 蔡 具有 平行 导线 的 单独 物理 实体 。 我 们 使 用 术语 
拟 总 线 来 描述 该 技术 。 例 如 ， 可 以 创建 一 个 控制 器 ， 该 控制 器 呈现 每 个 连接 设备 的 一 个 虚拟 
总 线 的 错觉 。 或 者 ， 可 以 创建 控制 器 ， 其 将 一 个 或 多 个 虚拟 总 线 与 一 个 或 多 个 物理 总 线 的 连 
接 组 合 。 后 面 的 小 节 显 示 了 示例 。 

通常 ，PC 架构 使 用 两 个 控制 器 芯片 而 不 是 一 个 。 控 制 器 非 正 式 地 称 为 北桥 和 南 桥 芯片 ， 
北桥 有 时 称 为 系统 控制 器 。 北 桥 连接 高 速 组 件 ， 如 CPU 、 内 存 、 流 通信 控制 器 和 用 于 操作 
高 速 图 形 显示 咽 的 高 级 图 形 端口 (AGP) 接口 。 南 桥 连接 到 北桥 ， 为 低速 组 件 提 供 连 接 ， 例 
如 PCI 总 线 、Wi-Fi 网 络 接口 9 、 音 频 设 备 、 键 盘 、 鼠 标 和 类 似 设备 。 图 22.3 说 明了 使 用 两 
个 控制 器 芯片 的 PC 架构 的 物理 互 连 。 


名 以 千 兆 位 速度 运行 的 网 络 连接 到 北桥 。 
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控制 器 
双 端 口 存 储 器 


< 一 一 专用 集线器 连接 


图 22.3 系统 级 体系 结构 示例 ， 它 显示 在 一 个 PC 机 中 使 用 两 个 控制 器 芯片 的 物理 互 连 。 需 要 
最 高 速度 的 组 件 连接 到 北桥 控制 器 


如 图 22.3 所 示 ， 控 制 器 芯片 必须 适应 异 构 性 ， 因 为 控制 器 可 以 连接 到 多 种 总 线 技术 。 
例如 ， 在 该 图 中 ， 南 桥 提 供 PCI 总 线 、USB 总 线 和 ISA 总 线 的 连接 。 当 然 ， 控 制 器 必须 遵 
循 每 条 总 线 的 规则 。 也 就 是 说 ， 控 制 器 必须 遵守 电气 规范 ， 确 保 所 有 地 址 都 位 于 总 线 地 址 空 
间 内 ， 并 遵守 定义 设备 如 何 访问 和 使 用 总 线 的 协议 。 

制造 CPU 的 供应 商 通常 提供 一 组 控制 器 芯片 ， 旨 在 将 CPU 与 标准 总 线 互 连 。 例 如 ， 英 
特 尔 公司 提供 82865 PE 芯片 (提供 北桥 功能 ) 和 ICH5 芯片 (提供 南 桥 功能 )。 更 重要 的 是 ， 
英特尔 处 理 器 芯片 和 英特尔 控制 器 芯片 可 以 协同 工作 : 每 个 世 片 都 包含 一 个 允许 芯片 直接 互 
连 的 接口 ， 每 个 芯片 都 执行 连接 异 构 设 备 所 需 的 转换 。 


22.7 连接 速率 


图 22.3 所 示 的 连接 通常 使 用 具有 固定 宽度 的 并 行 硬件 接口 ， 并 设计 为 以 固定 的 时 钟 
速率 运行 以 提供 指定 的 吞吐 量 。 图 22.4 列 出 了 主要 连接 的 时 钟 速率 、 宽 度 和 吞吐 量 的 典 
型 值 。 

为 了 进行 比较 ， 图 22.4 包括 FCC 对 Internet 连接 的 定义 (下 行 25Mbps， 每 秒 3.1MB) 
和 现代 处 理 器 中 的 寄存 器 文件 的 定义 。 请 注意 ， 计 算 机 中 的 传输 速度 可 能 比 宽带 Internet 连 
接 快 得 多 ， 并 且 寄 存 器 的 持续 吞吐 量 使 图 中 列 出 的 所 有 其 他 吞吐 量 相形 见 绸 。 
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33MHz 32 位 1.5 MB/s 
E 3.1 MB/s 
100 ~ 200MHz 64 一 128 位 2.0 GB/s 


最 高 500MHz 32 位 5.0 GB/s 
200 一 800MHz 64 一 128 位 6.4 GB/s 
33MHz 32 位 126.0 GB/s 

1000 ~ 2000MHz 64 一 128 位 672.0 GB/s 


图 22.4 时 钟 速率 、 数 据 宽度 和 吞吐 量 的 示例 (针对 图 22.3 中 所 示 架 构 的 连接 ) 





22.8 桥接 功能 和 虚拟 总 线 


正如 北桥 和 南 桥 名 字 所 暗示 的 那样 ， 这 两 个 控制 器 提供 了 桥接 功能 。 例 如 ,北桥 芯片 桥 
接 内 存 、 高 速 设备 和 南 桥 芯片 。 北 桥 为 CPU 提供 了 一 个 统一 的 地 址 空间 ， 其 中 包含 了 上 述 
所 有 内 容 。 同 样 ， 南 桥 将 PCI 总 线 、ISA 总 线 和 USB 总 线 组 合成 一 个 统一 的 地 址 空间 ， 该 
地 址 空间 成 为 北桥 向 处 理 器 提供 的 地 址 空间 的 一 部 分 。 

有 趣 的 是 ， 一 组 控制 器 不 需要 将 所 有 设备 桥接 到 单个 地 址 空间 。 相 反 ， 控 制 器 可 以 向 
CPU 呈现 多 个 虚拟 总 线 的 错觉 。 例 如 ， 控 制 器 可 能 允许 CPU 访问 两 个 单独 的 PCI 总线 : 总 
线 编号 0 包含 CPU 和 内 存 ， 而 总 线 编号 1 包含 10 设备。 或者， 控制 器 可 能 呈现 三 种 虚 
拟 总 线 的 错觉 : 一 种 包含 CPU 和 内 存 ， 男 一 种 包含 高 速 图 形 设备 ， 第 三 种 对 应 于 任意 设 
备 的 外 部 PCI 插 槽 。 虽 然 程 序 员 对 比 并 不 特别 感 兴 趣 ， 但 对 于 对 性 能 感 兴趣 的 硬件 设计 人 
员 来 说 ， 分 离 是 至 关 重 要 的 ， 因 为 控制 器 芯片 可 以 包含 允许 所 有 虚拟 总 线 同 时 运行 的 并 行 
电路 。 


22.9 板 级 架构 


图 22.3 中 的 架构 包括 一 个 Wi-Fi 接口 ， 作 为 个 人 计算 机 中 的 一 个 单元 。 接 口 的 作用 很 
简单 : 提供 PC 和 Wi-Fi 无 线 电 之 间 的 物理 连接 ， 传 输 PC 通过 网 络 发 送 的 数据 以 及 通过 网 
络 到 达 的 数据 。 物 理 上 ，Wi-Fi 接口 可 以 集成 到 笔记 本 电脑 的 主板 上 ， 也 可 以 驻 留 在 桌面 系 
统 的 电路 板 上 。 在 任何 一 种 情况 下 ， 逻 辑 互 连 都 保持 不 变 。 

网 络 接口 卡 包含 惊 人 的 计算 能 力 。 特 别 是 接口 通常 包含 嵌入 式 处 理 器 、ROM 中 的 指令 、 
缓冲 存储 器 、 外 部 主机 接口 (例如 ，PCI 总 线 接口 )， 以 及 到 无 线 电 发 送 器 和 接收 器 的 连接 。 
一 些 接口 卡 使 用 传统 的 RISC 处 理 器 ; 其 他 则 使 用 专门 的 网 络 处 理 器 来 优化 处 理 网 络 数据 包 。 
图 22.5 说 明了 使 用 网 络 处 理 器 的 LAN 接口 的 可 能 架构 。 

为 什么 Wi-Fi 接口 需要 两 种 类 型 的 内 存 ? 主要 动机 是 成 本 : 虽然 速度 更 快 ， 但 SRAM 
的 成 本 高 于 SDRAM。 因 此 ， 可 以 使 用 大 SDRAM 来 保存 分 组 ， 并 且 可 以 将 小 型 SRAM 用 
于 保存 必须 频繁 访问 或 更 新 的 值 (例如 ， 网 络 处 理 器 执行 的 指令 )。 在 本 例 中 ， 选 择 了 两 个 
存储 器 连接 ， 因 为 下 一 节 中 描述 的 网 络 处 理 器 使 用 了 SRAM 和 SDRAM。 


吞吐 量 以 兆 字 节 / 秒 (MB /s) 和 千 兆 字 节 / 秒 (GB /s) 为 单位 表示 ， 其 中 大 写 B 强调 字 节 而 不 是 位 。 


务 22 但 体系 结 药 的 例子 和 层 关 253 


静态 随机 存储 器 ( SRAM ) 


网 络 处 理 器 


同步 动态 随机 存储 器 
( SDRAM ) 





图 22.5 用 于 Wi-Fi 设备 的 网 络 接口 卡 的 体系 结构 的 例子 


22.10 芯片 级 架构 


我 们 说 芯片 级 架构 描述 了 单个 集成 电路 的 内 部 结构 。 例 如 ， 考 虑 图 22.5 所 示 的 板 级 架 
构 中 的 网 络 处 理 器 ， 该 图 使 用 矩形 来 描绘 网 络 处 理 器 。 如 果 转 向 芯片 级 架构 ， 我 们 可 以 检查 
芯片 的 内 部 结构 。 图 22.6 显示 了 Netronome 网 络 处 理 器 的 芯片 级 架构 。 


PCI 总 线 访问 
单元 临时 存储 器 
嵌 人 式 
RISC 串 行 线 
处 理 器 
(XScale ) 


板 载 多 个 独立 的 
临时 存储 器 内 部 总 线 





图 22.6 芯片 级 架构 示例 ， 显 示 了 Netronome 网 络 处 理 器 的 主要 内 部 组 件 。 访 问 单元 提供 芯片 
外 部 的 连接 


日 英特尔 公司 设计 了 该 网 络 处 理 器 ， 后 来 将 设计 卖 给 了 Netronome。 
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重要 的 是 要 记 住 ， 整 个 图 指 的 是 单个 集成 电路 。 如 图 22.6 所 示 ， 网 络 处 理 器 芯片 包含 
许多 组 件 ， 包 括 各 种 外 部 接口 、 提 供 高 速 存储 的 板 载 临时 存储 器 ， 以 及 多 个 独立 处 理 器 。 特 
别 是 ， 该 芯片 包含 一 组 可 编程 RISC 处 理 器 ， 称 为 微 引 擎 9 ， 可 并 行 运行 ， 也 可 作为 XScale 
RISC 处 理 器 。XScale 提供 了 一 个 管理 其 他 处 理 器 并 提供 管理 接口 的 通用 处 理 器 。 当 网 络 处 
理 器 运行 时 ，XScale 运行 传统 的 操作 系统 ， 例 如 Linux。 为 了 表明 处 理 器 是 集成 电路 的 一 部 
分 ,我 们 说 它们 是 岩 入 式 的 。 

网 络 处 理 器 的 细节 和 它 的 每 个 内 部 处 理 器 是 不 相干 的 。 重 要 的 一 点 是 要 了 解 每 个 架构 层 
面 都 会 显示 更 多 细节 。 在 这 种 情况 下 ， 我 们 已 经 看 到 ， 虽 然 单个 集成 电路 可 以 包含 许多 功 
能 单元 ， 但 电路 的 结构 仅 在 芯片 级 图 中 显示 ; 芯片 结构 仍然 隐藏 在 板 级 图 中 。 我 们 可 以 总 结 
一下; 





22.11 片上 功能 单元 的 结构 


作为 架构 级 别 的 最 后 一 个 例子 ， 我 们 将 研究 如 何 描述 芯片 上 一 个 组 件 的 架构 。 图 22.7 
显示 了 图 22.6 中 的 SRAM 访问 单元 。 存 储 器 访问 单元 的 内 部 结构 非常 复杂 。 


SRAM 访 问 单元 





XScale 


微 引擎 数据 
与 命令 队列 


微 引擎 数据 
图 22.7 SRAM 访问 单元 的 内 部 结构 (在 图 22.6 中 隐藏 )。 架 构 层次 结构 中 的 每 个 连续 层次 都 
显示 了 更 多 细节 和 结构 
22.12 小 结 


可 以 在 多 个 抽象 层次 上 查看 数字 系统 的 体系 结构 。 系 统 级 架构 显示 整个 计算 机 系统 的 结 


日 更 先进 的 芯片 版 本 提供 16 个 微 引擎 。 
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构 ， 板 级 架构 显示 每 个 板 的 结构 ， 芯 片 级 架构 显示 集成 电路 的 内 部 结构 。 在 每 个 连续 的 级 
别 ， 前 一 级 别 隐藏 的 细节 会 被 揭示 出 来 。 


作为 一 个 例子 ， 本 章 介 绍 了 一 种 体系 结构 的 层次 ， 它 显示 了 个 人 计算 机 的 结构 、 计 算 机 


中 的 Wi-Fi 网 络 接口 板 以 及 接口 板 上 的 网 络 处 理 器 。 最 后 ， 我 们 看 到 通过 查看 每 个 戏 人 式 单 
元 的 架构 ， 可 以 进一步 完善 芯片 级 架构 。 


习题 


22. 和 
22.6 


22] 
22.8 


22.9 


如 果 工 程 师 得 到 了 一 个 系统 架构 师 的 工作 ,那么 这 个 工作 需要 做 什么 ? 

计算 机 提供 两 条 总 线 的 动机 是 什么 ? 

具有 USB 端口 的 计算 机 包含 一 个 称 为 USB 集线器 的 硬件 ， 它 通常 将 外 部 端口 连接 到 PCI 总 线 。 
修改 图 22.2 以 显示 USB 集线器 。 

如 果 计 算 机 包含 两 条 通过 透明 桥 连接 的 总 线 ， 并 且 内 存 连 接 到 一 条 总 线 ， 而 设备 连接 到 另 一 条 
总 线 ， 那 么 设备 是 否 能 够 与 内 存 通信 ? 请 说 明 。 

现代 总 线 架构 中 控制 器 芯片 的 用 途 是 什么 ? 

计算 机 有 一 个 使 用 旧 总 线 的 设备 ， 但 没有 正常 的 总 线 插 覃 或 线 缆 。 这 样 的 情况 如 何 
可 行 ? 

在 PC 中 ,， 超 高 速 视频 系统 是 否 会 连接 到 北桥 芯片 或 南 桥 芯 片 ? 请 说 明 。 

如 果 通 过 USB 3.0 端口 传输 视频 需要 40 秒 ， 假 设 Wi-Fi 网 络 操作 速率 为 20Mbps 通过 Wi-Fi 网 
络 传输 相同 的 视频 大 约 需要 多 长 时 间 ? 

网 络 处 理 器 (如 图 22.6 所 示 ) 被 归 类 为 片上 系统 (SoC ) 。 请 解释 为 什么 。 


22.10 ”在 许多 硬件 设计 文档 中 ， 和 矩形 框 用 于 表示 子 系统 。 是 否 可 以 通过 查看 图 表 大 致知 道 需要 多 少 个 


门 才能 实现 框 所 代表 的 功能 ? 请 说 明 。 
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23.1 引言 


前 面 的 章节 概述 了 硬件 架构 ， 但 未 讨论 设计 或 实现 细节 。 本 章 简要 介绍 模块 化 的 设计 。 
特别 是 本 章 将 硬件 模块 化 与 软件 模块 化 进行 对 比 ， 并 考虑 为 什么 常见 的 编程 抽象 不 适用 于 硬 
件 。 然 后 ， 本 章 使 用 一 个 示例 来 说 明 如 何 设计 灵活 的 基本 硬件 模块 ， 以 及 设计 人 员 如 何 运用 
基本 模块 的 复制 形成 可 扩展 的 硬件 设计 。 


23.2 ”模块 化 的 动机 


模块 化 构建 有 两 个 动机 : 智力 和 经 济 。 从 智力 角度 来 看 ， 模 块 化 方法 允许 设计 师 将 大 型 
复杂 问题 分 解 为 更 小 的 部 分 。 与 完整 的 解决 方案 相 比 ， 小 模块 更 容易 理解 。 因 此 ， 设 计 师 更 
容易 确保 模块 正确 ， 并 且 设 计 师 更 容易 优化 单个 模块 。 

模块 化 的 经 济 动机 源 于 设计 和 测试 产品 的 成 本 。 在 许多 情况 下 ， 公 司 不 会 生产 一 种 孤立 
产品 。 相 反 ， 该 公司 创建 了 一 套 相关 产品 。 多 种 产品 的 一 个 常见 原因 来 自 尺 寸 一 一 公司 可 能 
会 销售 一 系列 尺寸 从 小 到 大 的 相关 产品 。 例 如 ， 销 售 网 络 设备 的 公司 可 能 会 提供 四 种 型 号 
的 网 络 交换 机 ， 这 些 型 号 分 别 连 接 四 台 计 算 机 、 二 十 四 台 计 算 机 、 四 十 八 台 计算 机 或 九 十 六 
台 计 算 机 。 或 者 ， 公 司 可 以 销售 一 系列 提供 相同 基本 功能 的 产品 ， 但 每 种 产品 都 具有 特殊 功 
能 。 例 如 ， 销 售 网 络 设备 的 公司 可 以 提供 一 种 连接 到 无 线 Wi-Fi 网 络 的 模型 和 另 一 种 连接 到 
有 线 以 太 网 的 模型 。 

因为 设计 产品 很 昂贵 ， 如 果 基 本 模块 可 以 设计 一 次 然后 在 多 个 产品 中 重复 使 用 ， 公 司 可 
以 节省 资金 。 因 为 一 旦 对 基本 模块 进行 了 彻底 测试 ， 使 用 该 模块 的 后 续 设 计 可 以 假设 它 正常 
工作 。 


23.3 ”软件 模块 化 


自 早期 计算 机 以 来 ， 模 块 化 在 软件 设计 中 发 挥 了 关键 作用 。 主 要 抽象 包括 子 例 程 (也 称 
为 过 程 、 子 程序 或 函数 )。 使 用 子 程序 的 早期 动机 来 自 有 限 的 内 存 大 小 一 一 不 是 在 整个 程序 
的 多 个 位 置 重复 代码 段 ， 而 是 代码 的 单个 副本 可 以 放 在 内 存 中 ， 然 后 在 几 个 位 置 使 用 〈 即 调 
用 ) 程序 。 

随 着 软件 变 得 越 来 越 复 杂 ， 子 程序 成 为 处 理 复杂 性 的 重要 工具 。 特 别 是 子 程序 抽象 的 使 
用 使 得 专家 可 以 构建 一 个 软件 ， 其 他 程序 员 可 以 使 用 该 软件 而 无 须 了 解 细节 。 例 如 ， 理 解数 
值 数学 的 专家 可 以 创建 一 组 三 角 函 数 ， 例 如 sin(x) 和 cos(x)， 它 们 既 高 效 又 准确 。 其 他 程序 
员 可 以 调用 这 些 函 数 而 无 须 自己 编写 代码 ， 也 无 须 了 解 所 使 用 的 算法 。 通 过 提高 抽象 级 别 和 
隐藏 细节 ， 子 程序 允许 程序 员 在 更 高 级 别 工 作 ， 这 意味 着 它们 可 以 更 高 效 ， 并且 生成 的 软件 
将 包含 更 少 的 错误 。 
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23.4 子 程序 的 参数 化 调用 

如 何 将 基本 构建 块 用 于 多 种 用 途 ? 软件 的 答案 众所周知 。 创 建 子 程序 时 ， 程 序 员 指 定 一 
组 形式 参数 。 然 后 ， 当 编写 调用 子 程序 的 代码 时 ， 程 序 员 指定 替换 形式 参数 的 实际 参数 。 关 
键 点 是 : 





A ee 
提供 的 实际 参数 。 S 


23.5 ”硬件 扩展 和 并 行 


虽然 适用 于 软件 ， 但 参数 化 函数 调用 的 范例 不 能 与 硬件 一 起 使 用 。 原 因 是 软件 可 以 迭代 
地 调用 函数 ， 但 硬件 需要 可 以 并 行 控制 的 单独 物理 实例 。 例 如 ， 考 虑 控制 一 组 个 项 。 在 
软件 中 ， 项 可 以 存储 在 一 个 数组 中 ， 可 以 编写 一 个 函数 来 对 一 个 项 执行 操作 ， 程 序 可 以 遍历 
数组 ， 为 每 个 项 调用 函数 。 仅 通过 改变 迭代 的 界限 ,程序 就 可 以 扩展 到 更 大 的 数组 。 

创建 硬件 以 控制 一 组 项 时 ， 每 个 项 都 需要 一 些 专用 于 该 项 的 硬件 。 如 果 将 其 他 元 素 添 加 
到 集合 中 ， 则 必须 在 设计 中 添加 其 他 硬件 。 换 名 话说， 扩展 硬件 设计 总 是 需要 添加 额外 的 硬 
件 。 结 果 是 : 


当 硬件 设计 人 员 考 虑 模块 化 设计 时 ， i er 
不 是 迭代 地 调用 给 定 的 硬件 。 





23.6 ”基本 块 复制 


可 能 用 于 扩展 硬件 的 基本 技术 包括 定义 可 根据 需要 复制 的 基本 构建 块 。 我 们 已 经 看 到 
了 一 些 平常 的 例子 。 例 如 ， 锁 存 电 路 可 以 复制 N 次 以 形成 N 位 寄存 器 ,并 且 将 全 加 器 复制 
N-1 次 并 与 半 加 器 组 合 以 构建 电路 来 计算 两 个 NN 位 整数 之 和 。 

在 上 述 描述 的 平常 情况 下 ， 复 制 涉及 小 电路 〈 即 几 个 门 )， 并 且 复 制 的 数量 是 固定 的 。 
虽然 小 电路 的 复制 是 设计 的 一 个 重要 方面 ， 但 该 方法 可 以 应 用 于 明显 更 大 的 电路 并 用 于 扩展 
设计 。 例 如 ， 芯 片 制造 商 可 以 使 用 多 核 架 构 来 生产 一 系列 具有 两 个 内 核 、 四 个 内 核 、 八 个 内 
核 等 的 产品 。 在 一 系列 用 户 可 见 的 输入 或 输出 数量 不 同 的 产品 设计 中 ,复制 尤其 重要 。 


23.7 示例 设计 (重启 器 ) 


一 个 例子 将 澄清 这 个 想法 。 我 们 将 考虑 作者 实验 室 中 使 用 的 一 块 硬件 ， 而 不 是 选择 假设 
设计 。 该 实验 室 用 于 操作 系统 和 网 络 研 究 ， 拥 有 大 量 后 端 计算 机 ， 可 供 研究 人 员 和 课堂 学 生 
使 用 。 实 验 室 设 施 允 许 用 户 创建 操作 系统 ， 分 配 后 端 计算 机 ， 将 操作 系统 下 载 到 后 端 计算 机 
的 内 存 中 ， 然 后 启动 计算 机 运行 。 然 后 ， 用 户 可 以 与 后 端 计算 机 进行 交互 。 

遗憾 的 是 ， 对 操作 系统 的 实验 性 工作 经 常 导致 骨 演 或 使 计算 机 硬件 处 于 无 法 响应 进一步 
输入 的 状态 。 在 这 种 情况 下 ， 必 须 重新 启动 后 端 计算 机 以 重新 获得 控制 权 。 因 此 ， 我 们 创建 
了 一 个 专用 硬件 系统 ， 可 以 根据 需要 对 各 个 后 端 计算 机 进行 循环 开启 。 我 们 称 这 个 系统 为 重 
启 器 。 在 实验 室 中 使 用 了 几 代 重 启 器 硬件 ， 我 们 将 评述 一 个 设计 。 
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23.8 重启 器 的 高 层次 设计 

原则 上 ， 重 启 器 硬件 遵循 一 种 直接 的 方法 。 重 启 器 具有 一 组 输出 ， 每 个 输出 为 后 端 计算 
机 供电 。 重 启 器 的 输入 由 二 进 制 值 组 成 ， 该 值 指定 要 重新 启动 的 输出 之 一 以 及 指示 重启 器 执 
行 的 使 能 输入 。 要 使 用 重启 器 ， 将 在 输入 行 上 放置 二 进 制 值 (以 指定 其 中 一 个 输出 )， 并 将 
使 能 端 设 置 为 1， 这 会 导致 重启 器 重新 启动 指定 的 输出 〈 对 应 的 后 端 计 算 机 )  。 图 23.1 说 明 
了 输入 和 输出 。 


用 于 2* 个 后 端 计算 机 的 电源 连接 
一 全 


oe 
输入 值 重启 器 硬件 单元 
使 能 输入 一 一 





图 23.1 重启 器 硬件 的 概念 性 组 织 


重启 器 应 该 有 多 少 输 出 ?” 这 个 问题 很 重要 ， 因 为 重启 器 需要 每 个 输出 的 物理 连接 。 最 
初 ， 实 验 室 只 有 一 个 后 端 ， 但 迅速 演变 为 两 个 ， 然 后 是 八 个 。 为 了 规划 未 来 ， 我 们 需要 一 个 
重启 器 电路 来 容纳 至 少 40 个 后 端 ， 可 能 还 有 100 个 。 这 种 情况 说 明了 标准 的 硬件 困境 : 

。 输出 太 少 的 设计 并 不 能 满足 未 来 的 需要 。 

。 输出 太 多 的 设计 是 一 种 浪费 。 


23.9 适应 各 种 斥 寸 的 构建 块 


我 们 使 用 模块 化 方法 而 不 是 选择 特定 尺寸 。 也 就 是 说 ， 我 们 选择 了 一 个 基本 的 构建 块 ， 
并 设计 了 一 种 互 连 基 本 块 的 方法 ， 以 形成 一 个 更 大 的 重启 器 。 模 块 化 方法 允许 我 们 构建 一 个 
小 型 重启 器 ， 然 后 根据 需要 添加 其 他 输出 。 


我 们 的 基本 构建 块 包含 一 个 16 路 输出 重启 用 于 16 个 后 
器 ， 如 图 23.2 所 示 。 aa 
仔细 看 看 这 个 示意 图 。 二 进 制 输入 值 包含 8 
位 ,但 只 有 16 个 输出 。 因 此 ， 仅 需要 四 位 来 先 ot 
择 一 个 输出 。 为 什么 要 有 额外 的 输入 位 ?它们 输入 值 重启 器 
用 于 允许 组 合 构建 块 的 多 个 副本 以 形成 更 大 的 重 RO 3 
启 器 。 


图 23.2 用 于 重启 器 的 基本 构建 块 的 示意 图 
23.10 并行 互 连 
我 们 的 设计 采用 了 许多 硬件 系统 通用 的 并 行 方法 。 也 就 是 说 ， 输 入 并 行 连接 到 所 有 
模块 。 从 概念 上 讲 ， 每 个 构建 块 将 其 输入 的 副本 (包括 使 能 输入 ) 传递 到 下 一 个 构建 块 。 
图 23.3 说 明了 这 个 想法 。 


晶 有 关 如 何 使 用 重启 器 电路 的 确切 细节 与 后 面 的 讨论 无 关 ; 了 解 基础 知识 非常 重要 。 
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用 于 16 个 后 端 

计算 机 的 电源 连接 

天 -一 一 一 
8 位 的 二 进 制 复制 所 有 
输入 值 重启 器 输入 用 于 
构建 志 下 一 个 阶段 


使 能 输入 一 一 ” 


图 23.3 基本 构建 块 的 示意 图 ， 它 将 所 有 输入 传递 到 重启 器 的 下 一 个 阶段 


23.11 互 连 的 例子 
图 23.4 说 明了 如 何 连接 构建 块 。 


用 于 64 个 后 端 计算 机 的 电源 连接 





8 位 的 二 进 制 
输入 值 


使 能 输入 一 一 ” 
额外 的 模块 可 根据 需要 添加 -| 


图 23.4 ”提供 64 个 输出 的 4 个 基本 构建 块 互 连 的 示例 





23.12 ”模块 选择 


如 图 23.4 所 示 ， 输 入 并 行 传递 给 所 有 四 个 模块 。 出 现 了 一 个 问题 : 如 果 输 入 指定 要 重 
启 的 计算 机 编号 为 5， 那 么 每 个 模块 是 否 会 对 其 第 五 个 输出 进行 重启 ?答案 是 否定 的 。 只 有 
模块 1 上 的 第 五 个 输出 受到 影响 。 

要 了 解 模块 如 何 响应 输入 ， 有 必要 知道 每 个 模块 都 分 配 了 一 个 唯一 的 ID (在 我 们 的 示例 
中 为 0、1、2 和 3 )。 模 块 包含 检查 输入 的 高 四 位 的 硬件 ， 它 查看 它们 是 否 与 分 配 的 ID 匹配 。 
如 果 输 入 与 ID 不 匹配 ， 则 忽略 输入 。 换 句 话 说， 硬件 将 高 四 位 解释 为 模块 选择 ， 将 低 四 位 
解释 为 输出 选择 。 

例如 ， 图 23.5 说 明了 硬件 如 何 将 输入 值 5 解释 为 模块 0 和 输出 5。 


PE i ,st 
cpp) Lo oo fofofr Tol | 
一 一 天 一 一 一 


模块 选择 是 0 输出 选择 是 5 
图 23.5 重启 器 对 输入 值 5 的 解释 (对 应 于 图 23.4 ) 
如 图 23.5 所 示 ， 输 入 值 5 表示 高 四 位 包含 0000， 低 四 位 包含 0101。 高 四 位 与 分 配给 模 
块 0 的 ID 匹配 , 但 没有 与 其 他 模块 匹配 。 因 此 ， 只 有 模块 0 响应 输入 。 
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使 用 输入 的 高 位 来 选择 模块 可 以 使 硬件 非常 高 效 。 模 块 选择 位 可 以 与 模块 的 ID 一 起 传 
递 到 比较 器 芯片 。 顾 名 思 义 ， 比 较 器 比较 两 组 输入 ， 如 果 两 者 相等 则 将 输出 线 设置 为 高 。 因 
此 ， 执 行 模块 选择 所 需 的 附加 硬件 非常 少 。 


23.13 ”小结 


硬件 和 软件 工程 师 都 使 用 模块 化 。 在 软件 中 ,模块 化 的 基本 抽象 是 一 个 子 程序 。 在 硬件 
中 ， 基 本 抽象 是 基本 构建 块 的 复制 。 

用 于 容纳 一 系列 硬件 大 小 的 一 种 方法 包括 构造 模块 ( 即 ， 构 建 块 ) 以 接受 一 组 入 条 输入 
线 ， 以 控制 一 组 2" 个 输出 。 复 制 构建 块 时 ,会 为 每 个 构建 块 分 配 唯 一 的 ID。 设 计 中 添加 了 
额外 的 输入 线 ， 这 意味 着 输入 的 高 位 可 用 于 选择 其 中 一 个 模块 ， 低 位 可 用 于 选择 模块 上 的 
输出 。 


习题 

23.1 在 工程 中 ， 模 块 化 和 重用 之 间 的 关系 是 什么 ? 

23.2 ”将 参数 传递 给 函数 的 能 力 如 何 帮 助 程序 员 控 制 软件 的 复杂 性 ? 

23.3 ” 当 软 件 工程 师 和 硬件 工程 师 考 虑 处 理 128 位 整数 的 加 密 系统 的 设计 时 ， 它 们 都 会 以 一 个 偏 置 值 
开始 。 软 件 工程 师 可 能 会 想象 一 种 迭代 整数 的 算法 ， 一 次 处 理 32 位 。 硬 件 工 程 师 会 想到 什么 ? 

23.4 ”在 数学 上 ， 可 以 从 模块 中 获得 任意 数量 的 输出 ， 并 使 用 算术 来 提取 模块 的 模块 编号 和 输入 ( 例 
如 ， 每 个 模块 的 七 个 输出 将 输入 值 除 以 7 以 获得 模块 编号 并 使 用 余数 选择 模块 内 的 输出 )。 但 
是 ,硬件 工程 师 总 是 选择 输出 为 2 的 寡 。 请 说 明 原 因 。 

23.5 选择 一 块 硬件 应 该 有 多 少 输 出 时 ， 要 考虑 哪些 权衡 ? 

23.6 ”假设 一 个 基本 构建 块 包 含 4 个 输出 ， 并 且 设 计 必 须 扩展 到 64 个 输出 。 将 使 用 多 少 个 构建 块 ? 

23.7 “如果 每 个 构建 块 包含 8 个 输出 且 输 入 有 16 位， 那么 可 以 控制 多 少 总 输出 ， 以 及 将 使 用 多 少 个 构 
建 块 苹 片 ? 

23.8 ”在 上 一 题 中 ， 绘 制 一 个 类 似 于 图 23.5 的 图 ， 用 来 显示 如 何 解 释 输 入 的 位 。 

23.9 查找 比较 器 芯片 。 一 个 比较 器 有 多 少 对 输入 ? 

23.10 在 上 一 题 中 ， 假 设 比较 器 芯片 可 以 比较 入 对 输入 ， 设 计 人 员 需 要 比较 2K 对。 如 何 使 用 多 个 世 
片 实现 ? 


| 附录 A 


Essentials of Computer Architecture, Second Edition 


用 于 计算 机 体系 结构 课程 的 实验 练习 





A.1 引言 


本 附录 介绍 一 套 本 科 计 算 机 体系 结构 课程 的 实验 练习 。 这 些 实验 是 专 为 那些 主要 教育 目 
标 是 学 习 如 何 构建 软件 而 非 硬 件 的 学 生 而 设计 的 。 因 此 ,在 引入 数字 电路 几 周 后 ， 实 验 将 重 
点 转移 到 编程 上 。 

实验 所 需 的 设施 很 少 : 早期 需要 少量 硬件 ， 并 且 以 后 的 实验 需要 访问 运行 UNIX 操作 系 
统 版 本 (例如 Linux) 的 计算 机 。RISC 架构 最 适合 汇编 语言 实验 ， 因 为 教师 发 现 CISC 架构 
在 汇编 语言 细节 上 花费 了 大 量 的 课堂 时 间 。 

实验 要 求学 生 编写 一 个 C 程序， 用 于 检测 体系 结构 是 大 端 还 是 小 端 。 由 于 大 多 数 编 码 
和 调试 可 以 在 一 种 体系 结构 上 执行 ， 且 只 需要 很 少 的 时 间 在 另 一 种 体系 结构 上 移植 和 测试 程 
序 ， 因 此 只 需要 很 少 的 额外 资源 。 


A.2 ”数字 逻辑 实验 所 需 的 硬件 


前 几 周 涵盖 的 硬件 实验 要 求 每 个 学 生 都 有 以 下 装备 : 
e 无 焊 面包 板 。 
e 与 面包 板 一 起 使 用 的 接线 套件 ( 22 号 线 )。 
e 五 伏 电 源 。 
。 发 光 二 极 管 〈 用 于 测量 输出 )。 
与 非 门 和 或 非 门 。 
这 些 硬件 都 不 贵 。 例 如 ， 为 了 应 对 70 名 学 生 的 一 个 班 ， 普 渡 大 学 在 硬件 上 花费 不 到 
1000 美元 。 人 数 更 少 的 班级 或 在 实验 中 共享 可 以 进一步 降低 成 本 。 作 为 奉 代 方 案 ， 可 以 设 
置 实验 费 或 要 求学 生 购买 自己 的 硬件 副本 。 


A.3 无 焊 面 包 板 


无 焊 面 包 板 可 用 于 快速 构造 电子 电路 而 无 须 焊接 连接 。 在 物理 上 ， 面 包 板 由 一 块 塑料 
(通常 为 3 英寸 x7 英寸) 组 成 ， 其 中 有 一 排 小 孔 覆 盖 表 面 。 

这 些 孔 排 成 一 排 ， 中间 有 一 个 小 间 际 ， 外 面 有 额外 的 孔 。 面 包 板 上 的 每 个 孔 都 是 一 个 足 
以 容纳 铜 线 的 插座 一 一 当 电 线 插入 孔 中 时 ， 插 座 中 的 金属 触 点 与 金属 线 电 接触 。 面 包 板 上 插 
座 的 尺寸 和 间距 与 标准 集成 电路 (技术 上 使 用 标准 DIP 封装 的 IC) 上 的 引 脚 尺寸 和 间距 相 匹 
配 ， 面 包 板 上 的 间隙 与 IC 引 脚 上 的 间距 相 匹 配 ， 这 意味 着 可 以 将 一 个 或 多 个 集成 电路 插入 
面包 板 。 也 就 是 说 ，IC 上 的 引 脚 直接 插入 面包 板 的 孔 中 。 

面包 板 的 背面 包含 互 连 各 种 插座 的 金属 条 。 例 如 ， 给 定 行 中 心 两 侧 的 插座 是 互 连 的 。 图 
A.1 说 明了 面包 板 上 的 插座 和 插座 之 间 的 电气 连接 。 
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a) b) 
图 A.1 a) 带 有 插座 的 面包 板 的 示意 图 ， 可 插入 电线 ; b) 连 线 显示 了 插座 之 间 的 电气 连接 


A.4 ”使 用 无 焊 面包 板 


为 了 使 用 面包 板 ， 实 验 者 将 集成 电路 沿 中 心 插入 面包 板 ， 然 后 使 用 短 导 线 在 IC 之 间 建 
立 连接 。 插 和 一 排 孔 的 电线 连接 到 插入 该 行 的 IC 上 的 相应 引 脚 。 为 了 进行 连接 ， 实 验 者 使 
用 一 组 称 为 接线 套件 的 预 切割 线 。 接 线 套件 中 的 每 根 电线 都 有 裸露 的 一 端 插入 面包 板 ， 否 则 
是 绝缘 的 。 因 此 ， 可 以 将 许多 电线 添加 到 面包 板 ， 因 为 电线 上 的 绝缘 区 域 可 以 摩擦 其 他 电线 
的 绝缘 区 域 而 不 会 接 通 导电 。 

图 A.2 说 明了 包含 一 个 7400 IC 的 面包 板 的 一 部 分 ， 其 中 的 导线 连接 了 IC 上 的 一 些 门 。 





b ) 


图 A.2 a)7400 芯片 的 内 部 连接 示意 图 ; b) 面包 板 的 一 部 分 ， 灰 线 表示 连接 7400 芯片 的 电线 。 
使 用 一 组 插座 连接 电源 线 和 地 线 可 以 添加 额外 的 连接 
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A.5 电源 和 接地 连接 

当 多 个 芯片 插入 面 包 板 时 ， 每 个 芯片 必须 连接 到 电源 和 接地 ( 即 5 伏 和 0 伏 )。 为 了 确 
保 电源 和 接地 连接 方便 并 且 保持 电线 较 短 ， 大 多 数 实验 者 选择 将 面包 板 两 侧 的 外 部 插座 组 用 
于 电源 和 接地 。 

用 于 连接 电源 和 接地 的 电线 是 半 永 久 性 的 ， 因 为 它们 可 以 重复 用 于 许多 实验 。 因 此 ， 实 
验 者 经 常 使 用 电线 的 颜色 来 指示 其 用 途 ， 并 选择 不 用 于 其 他 连接 的 颜色 用 于 电源 和 接地 连 
接 。 例 如 ， 红 线 可 用 于 所 有 电源 连接 ， 黑 线 可 用 于 所 有 接地 连接 ， 蓝 线 可 用 于 其 他 连接 。 当 
然 ， 导 线 本 身 没 有 区 别 一 一 绝缘 的 颜色 仅仅 有 助 于 人 们 理解 导线 的 用 途 。 在 实验 完成 后 拆 务 
面包 板 时 ， 实 验 者 可 以 留 下 电源 和 接地 连接 以 用 于 稍 后 的 实验 。 


A.6 构建 和 测试 电路 

构建 数字 电路 的 最 简单 方法 包括 分 阶段 构建 电路 并 在 构建 过 程 中 测试 电路 的 每 个 阶段 。 
例如 ， 在 将 电源 和 地 线 连接 到 芯片 之 后 ， 可 以 测试 芯片 上 的 逻辑 门 以 验证 芯片 是 否 按 预 期 工 
作 。 类 似 地 ， 在 连接 特定 门 之 后 ， 可 以 测量 门 的 输入 和 输出 以 确定 连接 是 否 正在 工作 。 

尽管 可 以 使 用 电压 表 来 测量 数字 电路 的 输出 ， 但 大 多 数 实验 者 更 喜欢 简单 且 廉 价 的 替代 
方案 一 一 发 光 二 极 管 (LED)。 我 们 的 想法 是 选择 一 款 可 以 直接 供电 的 LED 。 当 LED 连接 
到 逻辑 1 ( 即 5 伏 ) 时 LED 发 光 ， 而 当 其 输入 线 连接 到 逻辑 0 ( 即 0 伏 ) 时 LED 关闭 。 例 如 ， 
为 了 测试 图 A.2 中 的 电路 ，LED 可 以 连接 到 输出 (集成 电路 的 引 脚 11 )。 


A.7 ”实验 练习 

接 下 来 的 内 容 包含 一 系列 实验 练习 。 虽 然 每 个 详细 描述 指定 了 在 实验 中 要 执行 的 步骤 ， 
但 实验 指导 员 必 须 提 供与 本 地 环境 或 计算 机 系统 相关 的 其 他 详细 信息 。 例 如 ， 第 一 个 实验 要 
求学 生 建 立 他 们 的 计算 机 账户 ， 包 括 环 境 变量 。 由 于 要 包含 在 路 径 中 的 目录 集 取决 于 本 地 计 
算 机 系统 ， 因 此 必须 为 每 个 环境 提供 一 组 实际 路 径 。 





目标 

了 解 实验 设施 并 设置 计算 机 账户 ， 以 便 本 学 期 在 实验 中 使 用 。 
背景 阅读 和 准备 

阅读 Linux 提供 的 bash shell， 了 解 如 何 设 置 Linux 环境 变量 。 
概要 


修改 你 的 实验 账户 ， 以 便 在 你 登录 时 自动 设置 你 的 环境 。 
过 程 和 细节 ( 每 项 完成 之 后 打 勾 ) 
1. 修改 你 的 账户 启动 文件 (例如 .profile 或 .bash profile)， 以 便 你 的 PATH 
包含 实验 室 指导 员 指 定 的 目录 。 
2. 登 出 并 再 次 登录 。 
3. 确认 你 可 以 访问 实验 室 指 导 员 指定 的 文件 和 编译 器 。 


日 警告 : LED 必须 具有 适合 电路 的 电气 特性 一 一 任意 LED 都 会 消耗 大 量 电能 ， 导 臻 7400 系列 集成 电路 烧 坏 。 
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目标 


要 了 解 如 何 连 接 基 本 面包 板 并 使 用 LED 来 测试 门 的 操作 。 
背景 阅读 和 准备 
阅读 第 2 章 以 了 解 基 本 逻辑 门 和 电路 ， 并 阅读 本 附录 的 开头 部 分 以 了 解 面包 板 。 参 加 关 
于 如 何 正确 使 用 面包 板 和 相关 设备 的 讲座 。 
概要 
在 面包 板 上 放置 7400 芯片 ， 从 5 伏 电源 连接 电源 和 接地 ， 将 门 的 输入 连接 到 0 和 1 的 
四 种 可 能 组 合 ， 并 使 用 LED 观察 输出 。 
过 程 和 细节 ( 每 项 完成 之 后 打 勾 ) 
1. 获得 面包 板 、 电 源 、 接 线 套件 和 具有 必要 逻辑 门 的 零件 爹 。 还 要 验证 你 是 否 有 
一 个 数据 表 ， 指 定 7400 的 引 脚 ， 这 是 一 个 四 通道 双 输 入 与 非 门 。 引 脚 图 的 副本 
也 可 以 在 图 2.13 中 找到 。 
2. 将 7400 放 在 面包 板 上 ， 如 图 A.2b 所 示 。 
3. 将 两 根 电 线 从 $ 伏 电 源 连接 到 电路 板 边缘 附近 的 两 组 独立 插座 。 
4. 添加 一 根 跳 线 ， 将 7400 上 的 引 脚 14 连接 到 5 伏 。 
5. 添加 一 根 将 7400 上 的 引 脚 7 连接 到 0 伏 的 跳 线 。 注 意 : 请 确保 不 要 颠倒 连接 到 
电源 ， 否 则 芯片 将 会 损坏 。 
6. 添加 一 根 将 7400 上 的 引 脚 1 连接 到 0 伏 的 跳 线 。 
7. 添加 一 根 将 7400 上 的 引 脚 2 连接 到 0 伏 的 跳 线 。 
8. 将 实验 套件 中 的 LED 连接 到 7400 上 的 引 脚 3 和 地 线 之 间 (0 伏 )。 注 意 : LED 
正极 引线 必须 连接 到 7400。 
9. 验证 LED 是 否 点 亮 ( 它 应 该 点 亮 ， 因 为 两 个 输入 均 为 0， 这 意味 着 输出 应 为 
Ps 
10. 将 连接 引 肝 2 的 跳 线 从 0 伏 移动 到 5 伏 ， 并 验证 LED 是 否 保 持 点 亮 。 
11. 将 连接 引 脚 2 的 跳 线 移 回 0 伏 ， 将 连接 引 脚 1 的 跳 线 从 0 伏 移动 到 5 伏 ， 并 了 验 
证 LED 是 否 保持 点 亮 。 
12. 将 引 脚 1 的 跳 线 保持 在 5 伏 ， 将 连接 引 脚 2 的 跳 线 移动 到 5 伏 ， 并 验证 LED 
是 否 熄灭 。 


可 选 的 扩展 实验 ( 每 项 完成 之 后 打 勾 ) 

13. 如 图 A.2b 所 示 ， 连 接 面 包 板 ( 引 脚 3 连接 到 引 脚 12， 引 脚 13 作为 附加 输入 )。 
14. 将 LED 连接 到 引 脚 11 和 地 线 之 间 。 

15. 记录 三 个 输入 的 所 有 可 能 组 合 情 况 下 的 LED 值 。 

16. 电路 代表 什么 布尔 函数 ? 





了 解 如 何 组 合 基本 逻辑 门 以 执行 复杂 任务 ， 如 二 进 制 加 法 。 
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背景 阅读 和 准备 
阅读 第 2 章 中 有 关 基 本 逻辑 门 和 电路 的 内 容 ， 并 阅读 本 附录 的 开头 部 分 以 了 解 面 包 板 。 
概要 
仅 使 用 基本 逻辑 门 构建 半 加 器 和 全 加 器 电路 。 组 合 电路 以 实现 带 有 进位 输出 的 两 位 二 进 
制 加 法 器 。 
过 程 和 细节 ( 每 项 完成 之 后 打 勾 ) 
1. 获得 面包 板 、 电 源 、 接 线 套件 和 具有 必要 遇 辑 门 的 零件 爹 ， 以 及 描述 芯片 引 脚 
分 布 和 加 法 器 电路 逻辑 图 的 实验 详细 文档 。 
2. 构建 实验 指导 员 提 供 的 逻辑 图 中 指定 的 二 进 制 半 加 器 。 
3. 将 输出 连接 到 LED， 将 输入 连接 到 开关 ， 并 验证 LED 上 显示 的 结果 是 否 为 一 位 
加 法 器 的 正确 值 。 
4. 构建 实验 指导 员 提 供 的 逻辑 图 中 指定 的 二 进 制 全 加 器 。 
5. 将 输出 连接 到 LED， 将 输入 连接 到 开关 ， 并 验证 LED 上 显示 的 结果 是 否 为 全 加 
器 的 正确 值 。 
6. 将 半 加 器 电路 连接 到 全 加 器 电路 以 产生 两 位 加 法 器 。 验 证 电路 是 否 正确 将 一 对 
两 位 数 相 加 ， 并 且 进 位 值 是 否 正确 。 
可 选 的 扩展 实验 ( 每 项 完成 之 后 打 勾 ) 
7. 绘制 三 位 加 法 器 的 逻辑 图 。 
8. 绘制 四 位 加 法 器 的 逻辑 图 。 
9. 给 出 实现 n 位 加 法 器 所 需 门 数 的 公式 。 





了 解 时 钟 如 何 控制 电路 并 允许 发 生 一 系列 事件 。 
背景 阅读 和 准备 
阅读 第 2 章 ， 了 解 基 本 的 逻辑 门 和 时 钟 。 专 注 于 理解 时 钟 如 何 运作 。 
概要 
使 用 开关 模拟 时 钟 ， 并 安排 时 钟 操 作 译 码 器 电路 ( 非 正 式 地 称 为 多 路 分 配器 电路 )。 
过 程 和 细节 ( 每 项 完成 之 后 打 勾 ) 
1. 获得 面包 板 、 电 源 、 接 线 套 件 和 具有 必要 逻辑 门 的 零件 爹 ， 以 及 描述 芯片 引 脚 
分 布 和 译 码 器 电路 逻辑 图 的 实验 详细 文档 。 
2. 使 用 开关 模拟 慢 速 时 钟 。 
3. 为 了 验证 开关 是 否 正常 工作 ， 请 将 开关 的 输出 连接 到 LED， 并 在 开关 前 后 移动 
时 验证 LED 是 否 开启 和 关闭 。 
4. 将 模拟 的 时 钟 连接 到 四 位 二 进 制 计数 器 ( 7493 芯片 ) 的 输入 。 
5. 使 用 LED 验证 ， 当 开关 每 个 周期 移动 一 次 时 ， 计数器 的 输出 移动 到 下 一 个 二 进 
制 值 ( 模 4)。 
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6. 将 二 进 制 计数 器 的 四 个 输出 连接 到 译 码 器 芯片 的 输入 (74154 )。 

7. 使 用 LED 验证 ， 当 开关 在 一 个 周期 移动 时 ， 译 码 器 的 一 个 输出 正好 变 为 有 效 状 
态 。 人 警告 : 74154 与 直觉 相反 ， 因 为 有 效 输出 为 低 电 平 (逻辑 0)， 所 有 其 他 输 
出 为 高 电 平 (逻辑 1 )。 

可 选 的 扩展 实验 ( 每 项 完成 之 后 打 勾 ) 

8. 使 用 555 定时 器 芯片 构建 1 Hz 时 钟 ， 并 验证 时 钟 是 否 正 常 工作 。 

9. 用 时 钟 电路 代替 开关 。 

10. 使 用 多 个 LED 验证 译 码 器 是 否 连续 循环 每 个 输出 。 





目标 
了 解 底 层 硬件 使 用 的 整数 表示 如 何 影响 编程 和 数据 布局 。 
背景 阅读 和 准备 
阅读 第 3 章 ， 了 解 大 端 和 小 端 整数 表示 以 及 整数 的 长 度 大 小 。 
概要 
编写 一 个 C 程序 ， 检 查 存 储 在 内 存 中 的 数据 ， 以 确定 计算 机 是 使 用 大 端 还 是 小 端 整数 
表示 的 。 
过 程 和 细节 ( 每 项 完成 之 后 打 勾 ) 
1. 编写 一 个 在 内 存 中 创建 字 节 数组 的 C 程序 ， 用 零 填 充 数组 ， 然 后 在 数组 中 间 存 
储 整 数 0x04030201。 
2. 检查 数组 中 的 字 节 以 确定 整数 是 以 大 端 还 是 小 端 顺序 存储 。 
3. 在 大 端 或 小 端 计算 机 上 编译 并 运行 程序 (不 更 改 源 代码 )， 并 验证 它 是 否 正确 地 
宣告 了 整数 类 型 。 
4. 向 程序 添加 代码 以 确定 整数 大 小 (提示: 以 整数 1 开始 并 向 左 移动 直到 值 为 零 )。 
5. 在 32 位 和 64 位 计算 机 上 编译 并 运行 程序 (不 更 改 源 代码 )， 并 验证 程序 是 否 正 
确 地 宣告 了 整数 大 小 。 
可 选 的 扩展 实验 ( 每 项 完成 之 后 打 勾 ) 
6. 寻找 另 一 种 确定 整数 大 小 的 方法 。 
7. 实现 这 种 备用 方法 以 确定 整数 大 小 ， 并 验证 程序 是 否 正 常 工作 。 
8. 扩展 程序 以 宣告 整数 格式 ( 即 1 的 补 码 或 2 的 补 码 )。 


十 六 进 制 转 储 函 数 





目标 
了 解 内 存 中 的 值 如 何以 十 六 进 制 形式 呈现 。 

背景 阅读 和 准备 
阅读 第 3 章 有 关 数 据 表 示 的 内 容 ， 找 到 你 使 用 的 计算 机 的 整数 和 地 址 长 度 9。 向 实验 指 


日 在 大 多 数 计算 机 上 ， 地 址 长 度 等 于 整数 长 度 。 
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导 员 询问 输出 格式 的 确切 规范 。 
概要 
编写 一 个 C 函数 ， 以 ASCII 格式 生成 十 六 进 制 内 存 转 储 。 实 验 指导 员 将 提供 有 关 特 定 
计算 机 格式 的 详细 信息 ， 但 一 般 表格 如 下 : 
地 址 十 六 进 制 的 字 ASCII 字符 


aaaaaaaa XXXKXKXKXKXX XXXXXXXX XXXXXXXX XXXXXXXX CCCCCCCCCCCCCCCC 
在 该 示例 中 ， 每 行 对 应 于 一 组 内 存 位 置 。 字 符 串 aaaaaaaa 表示 该 行 中 值 的 起 

始 内 存 地 址 (十 六 进 制 格式 )，xxxXxXXXXX 表 示 内 存 中 字 的 值 (也 是 十 六 进 制 格式 )， 

cccccccccccccccc 表示 解释 为 ASCII 字符 的 同一 内 存 位 置 。 注 意 ，ASCII 输出 仅 显示 可 

打印 字符 ， 所 有 其 他 字符 显示 为 空格 。 

过 程 和 细节 ( 每 项 完成 之 后 打 勾 ) 

1. 创建 一 个 函数 mdump， 它 接受 两 个 参数 ， 每 个 参数 都 指定 一 个 内 存 中 的 地 址 。 
第 一 个 参数 指定 转 储 应 该 开始 的 地 址 ， 第 二 个 参数 指定 需要 包含 在 转 储 中 的 最 
高 地 址 。 测 试 以 确保 起 始 地 址 小 于 结束 地 址 。 

2. 修改 每 个 参数 ,使 它们 指定 适当 的 字 地 址 ( 即 四 个 字 节 的 精确 倍数 )。 对 于 起 始 
地 址 ， 向 下 会 入 到 最 近 的 字 地 址 ; 对 于 结束 地 址 ， 向 上 全 入 。 

3. 测试 函数 以 验证 地 址 是 否 正 确 使 入。 

4. 添加 使 用 printf 生成 十 六 进 制 转 储 标题 的 代码 ， 并 验证 标题 是 否 正 确 。 

5. 添加 迭代 遍历 地 址 的 代码 并 生成 十 六 进 制 值 行 。 

6. 要 验证 函数 mdump 是 否 输出 正确 的 值 ， 请 在 内 存 中 声明 结构 体 ， 将 值 放 在 字段 
中 ， 然 后 调用 mdump 函数 来 转 储 结构 体 中 的 项 。 

7. 添加 为 每 个 内 存 位 置 生 成 可 打印 ASCII 字符 值 的 代码 ， 如 上 所 示 。 

8. 验证 输出 中 是 否 只 包含 可 打印 字符 ( 即 ， 验 证 不 可 打印 的 字符 ,例如 0x01 是 否 
映射 到 空格 )。 

可 选 的 扩展 实验 ( 每 项 完成 之 后 打 勾 ) 

9. 扩展 mdump， 用 字 节 地 址 表示 启动 和 停止 地 址 ( 即 ， 省 略 第 一 行 输出 的 前 导 值 
和 最 后 一 行 的 尾随 值 )。 

10. 修改 mdump ， 不 是 以 ASCII 格式 打印 字 节 ， 而 是 显示 十 进 制 字 的 值 。 

11. 修改 mdump， 使 得 该 函数 不 是 打印 ASCII 值 ， 而 是 假定 内 存 对 应 于 机 器 指 
令 ， 并 为 每 条 指令 提供 助 记 符 操 作 码 。 例 如 ， 如 果 该 行 上 的 第 一 个 单词 对 应 于 
load 指令 ， 则 打印 1oad。 

12. 为 函数 mdump 添加 一 个 参数 ， 从 各 种 输出 形式 (ASCII 字符 、 十 进 制 值 或 指 
令 ) 中 进行 选择 。 


器 的 汇编 语言 





目标 

获得 汇编 语言 的 第 一 手 经 验 ， 并 理解 汇编 语言 指令 和 机 器 指令 之 间 的 一 对 一 映射 。 
背景 阅读 和 准备 

阅读 第 5 章 、 第 7 章 和 第 9 章 ， 学 习 指 令 集 和 操作 数 类 型 的 概念 。 阅 读 有 关 本 地 计算 机 
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上 可 用 的 特定 指令 集 的 信息 。 请 参阅 汇编 程序 参考 手册 以 了 解 汇编 程序 所 需 的 语法 约定 。 另 
请 阅读 汇编 程序 参考 手册 以 确定 用 于 调用 外 部 函数 的 约定 。 
概要 
编写 汇编 语言 程序 ， 将 整数 值 向 右 移 动 ， 然 后 调用 C 函数 以 十 六 进 制 显示 结果 值 。 
过 程 和 细节 ( 每 项 完成 之 后 打 勾 ) 
1. 编写 一 个 C 函数 int_out， 它 接受 一 个 整数 参数 并 使 用 printf 以 十 六 进 制 
显示 参数 值 。 
2. 测试 函数 以 确保 其 正常 工作 。 
3. 编写 汇编 语言 程序 ， 将 整数 4 放 在 寄存 器 中 ， 并 将 寄存 器 的 内 容 右 移 一 位 。 
4. 扩展 程序 以 将 上 一 步 的 结果 作为 参数 传递 给 外 部 函数 int_out。 
5. 验证 程序 生成 0x2 作为 输出 。 
6. 将 整数 0xBD5A 加 载 到 寄存 器 中 并 打印 结果 ， 以 验证 符号 扩展 是 否 正常 工作 。 
7. 不 是 将 整数 4 右 移 一 位 ， 而 是 将 0xBD5B7DDE 加 载 到 32 位 寄存 器 中 ， 并 向 右 
移 一 位 ， 并 验证 输出 是 否 正 确 。 
可 选 的 扩展 实验 ( 每 项 完成 之 后 打 勾 ) 
8. 重 写 外 部 函数 int_out 和 汇编 语言 程序 以 传递 多 个 参数 。 





言 调用 的 函数 
目标 
要 学 习 如 何 编写 可 以 从 C 程序 调用 的 汇编 语言 函数 。 
背景 阅读 和 准备 


阅读 第 9 章 ， 了 解 汇编 语言 中 子 程序 调用 的 概念 ， 并 阅读 C 语言 和 汇编 程序 参考 手册 ， 
以 确定 C 语言 用 于 调用 本 地 计算 机 上 的 函数 的 约定 。 
概要 
编写 一 个 汇编 语言 函数 ， 可 以 从 C 程序 调用 它 来 执行 异 或 两 个 整数 值 。 
过 程 和 细节 ( 每 项 完成 之 后 打 勾 ) 
1. 编写 一 个 C 函数 xor， 它 接受 两 个 整数 参数 并 返回 参数 的 异 或 。 
2. 编写 一 个 C 主 程序 ， 用 两 个 整数 参数 调用 xor 函数 ， 并 显示 函数 的 结果 。 
3. 编写 axor，C 函数 xor 的 汇编 语言 版 本 ， 其 行为 与 C 版 本 完全 相同 。( 不 是 仅 
让 C 编译 器 生成 一 个 汇编 文件 ， 而 是 从 头 开 始 编写 新 版 本 。) 
4. 将 一 个 printf 调用 添加 到 axor 函数 并 使 用 它 来 验证 函数 是 否 正确 接收 C 程 
序 作 为 参数 传递 的 两 个 值 ( 即 ， 参 数 传递 正常 工作 )。 
5. 安排 C 主 程序 测试 axor， 以 验证 代码 返回 合理 范围 输入 的 正确 结果 。 提 示 : 随 
机 生成 值 。 
可 选 的 扩展 实验 ( 每 项 完成 之 后 打 勾 ) 
6. 修改 C 程序 和 axor 函数 ， 以 便 C 程序 将 单个 结构 体 作 为 参数 传递 而 不 是 两 个 
整数 。 安 排 该 结构 体 包含 两 个 整数 值 。 
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目标 

了 解 内 存 中 的 数组 存储 以 及 行 优先 顺序 和 列 优先 顺序 。 
背景 阅读 和 准备 

阅读 第 10 一 13 章 ， 了 解 基本 内 存 组 织 以 及 行 优先 顺序 和 列 优先 顺序 存储 数组 之 间 的 区 别 。 
概要 

不 是 使 用 内 置 语言 工具 来 声明 二 维 数组 ， 而 是 实现 两 个 C 函数 two_d_store 和 two 
qd_fetch， 它 们 使 用 线性 存储 来 实现 二 维 数组 。 函 数 two_d_fetch 有 六 个 参数 : 要 用 作 
二 维 数组 的 内 存 区 域 的 基 址 、 数 组 中 单个 条 目的 大 小 (以 字 节 为 单位 )、 两 个 数组 维度 和 两 
个 索引 值 。 例如 ， 相 比如 下 两 行 代 码 : 

int d[10,20]; 

x = d[4,0]; 
程序 员 可 以 编码 为 : 

char d[200*sizeof(int)]; 

x = two d fetch(d, sizeof(int), 10, 20, 4, 0); 

函数 two_d_store 有 了 七 个 参数 。 前 六 个 对 应 于 two_d_fetch 的 六 个 参数 ， 第 七 个 
是 要 存储 的 值 。 例 如 ， 相 比如 下 代码 : 

int df10,20]; 

d[4,0] = 576; 
程序 员 可 以 编码 为 : 

char d[200*sizeof(int)]; 

two d store(d, sizeof(int), 10, 20, 4, 0, 576); 


过 程 和 细节 ( 每 项 完成 之 后 打 勾 ) 

. 实现 函数 two_d_store, 使 用 行 优先 存储 数组 。 

2. 创建 一 个 足以 容纳 数组 的 内 存 区 域 ， 将 整个 区 域 初始 化 为 零 ， 然 后 调用 two_ 
d_store 在 不 同位 置 存储 特定 值 。 使 用 实验 6 中 创建 的 十 六 进 制 转 储 程序 显示 
结果 ， 并 验证 是 否 已 存储 正确 的 值 。 

3. 实现 函数 two_dqd_fetch， 使 用 行 优先 顺序 匹配 two_d_store 中 使 用 的 顺序 。 

4. 验证 two_d_store 和 two d_ fetch 的 实现 是 否 正 常 工作 。 

5. 测试 two_d_store 和 two d fetch 的 边界 条 件 ， 例 如 最 小 和 最 大 数组 维度 。 

6. 重 写 two_d_store 和 two d fetch 以 使 用 列 优先 顺序 。 

7. 验证 列 优先 的 代码 是 否 正常 工作 。 

可 选 的 扩展 实验 ( 每 项 完成 之 后 打 勾 ) 

8. 验证 函数 two _d_store 和 two d _fetch 采 用 如 下 方式 存储 时 是 否 正常 工 
作 : 字符 、 整 数 或 双 精 度 。 

9. 扩展 two_d_store 和 two _d_fetch 以 使 用 任何 范围 的 数组 索引 正常 工作 。 例 
如 ， 尤 许 第 一 个 索引 的 范围 为 -5 到 +15， 并 允许 第 二 个 索引 的 范围 为 30 到 40。 


一 
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目标 


了 解 缓冲 IO 的 运行 方式 ， 并 比较 缓冲 和 非 缓冲 IO 的 性 能 。 
背景 阅读 和 准备 
阅读 第 14 ~ 16 章 ， 了 解 一 般 的 IO， 并 阅读 第 17 章 ， 了 解 缓冲 。 
概要 
构建 实现 缓冲 JIO 的 三 个 C 函数 buf_ in、buf_out 和 buf _ flush。 在 每 次 调用 时 ， 
函数 buf_in 从 文件 描述 符 0 传递 下 一 个 数据 字 节 。 当 需要 从 设备 进行 额外 输入 时 ，buf_ 
in 将 16KB 的 数据 读 入 缓冲 区 ， 并 允许 连续 调用 以 从 缓冲 区 返回 值 。 在 每 次 调用 时 ， 函 数 
buf_out 将 一 个 字 节 的 数据 写 入 缓冲 区 。 当 缓冲 区 已 满 或 程序 调用 函数 buf _flush 时 ,组 
冲 区 的 数据 将 写 入 文件 描述 符 1。 
过 程 和 细节 ( 每 项 完成 之 后 打 勾 ) 
1. 实现 函数 buf_in。 
2. 验证 buf_in 是 否 正确 运行 ,输入 小 于 16KB ( 即 少 于 一 个 数据 缓冲 区 )。 
3. 将 输入 重 定 向 到 大 于 32KB 的 文件 ， 并 验证 在 需要 buf_in 多 次 填充 缓冲 区 的 
输入 时 ，buf_in 是 否 正确 运行 。 
4. 实现 函数 buf out 和 buf flush。 
5. 对 于 输出 少 于 一 个 缓冲 区 ( 即 小 于 16KB) 的 情况 ， 验 证 buf out 和 buf_ 
fush 是 否 正确 运行 。 
6. 对 于 跨越 多 个 缓冲 区 的 输出 ， 验 证 buf out 和 buf flush 是 否 正确 运行 ? 
可 选 的 扩展 实验 ( 每 项 完成 之 后 打 勾 ) 
7. 对 于 各 种 大 小 的 文件 ， 将 函数 buf in、buf_ out 和 buf flush 的 性 能 与 无 缓 
冲 IO ( 即 ， 读 取 和 写 入 一 个 字 节 ) 的 性 能 进行 比较 。 并 绘制 结果 。 
8. 在 复制 大 文件 时 ， 测 量 各 种 大 小 的 缓冲 区 情况 下 的 buf_in、buf_out 和 
buf_flush 的 性 能 ， 并 绘制 结果 。 缓 冲 区 大 小 范围 从 4 字 节 到 100 KB 变化 。 





目标 
获得 编写 汇编 语言 的 经 验 。 
背景 阅读 和 准备 
回顾 第 5 章 、 第 7 章 和 第 9 章 ， 以 及 先前 实验 中 编写 的 汇编 语言 程序 。 
概要 
用 汇编 语言 重 写 实验 6 中 的 十 六 进 制 转 储 程序 。 
过 程 和 细节 ( 每 项 完成 之 后 打 勾 ) 
1. 用 汇编 语言 重 写 实验 6 中 的 基本 十 六 进 制 转 储 函数 。 
2. 验证 汇编 语言 版 本 是 否 提 供与 C 版 本 相同 的 输出 。 
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可 选 的 扩展 实验 ( 每 项 完成 之 后 打 勾 ) 

3. 扩展 汇编 语言 转 储 函数 ， 在 字 节 地 址 上 启动 和 停止 ( 即 ， 省 略 第 一 行 输出 的 
前 导 值 和 最 后 一 行 的 尾随 值 ) 。 

4. 更 改 函 数 以 十 进 制 而 不 是 ASCII 字符 形式 打印 值 。 

5. 修改 转 储 函 数 ， 并 不 是 打印 ASCII 值 ， 而 是 假定 内 存 对 应 于 机 器 指令 ， 并 
为 每 条 指令 提供 助 记 操作 码 。 例 如 ， 如 果 该 行 上 的 第 一 个 单词 对 应 于 load 
指令 ， 则 打印 1oad。 

6. 在 转 储 函数 中 添加 一 个 参数 ， 该 参数 从 各 种 形式 的 输出 中 选择 (ASCII 字 
符 、 小 数 或 指令 )。 
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Essentials of Computer Architecture, Second Edition 


布尔 代数 化 简 法 则 





B.1 引言 


通过 应 用 布尔 代数 法 则 可 以 化 简 布尔 表达 式 。 具 体 而 言 ， 存 在 涵盖 关联 、 反 身 和 分 配属 
性 的 法 则 。 从 工程 角度 来 看 ， 化 简 的 动机 是 用 更 少 的 门 实现 。 例 如 ， 考 虑 逻辑 或 。 我 们 知 
道 ， 如 果 两 个 表达 式 中 的 任何 一 个 为 真 ， 则 人 逻辑 或 也 将 为 真 。 因 此 ， 表达 式 Xx or true 可 
以 用 true 代替 。 


B.2 使 用 的 表示 法 


在 图 B.1 中 ,点 (，) 表示 逻辑 与 ， 加 号 (+) 表示 逻辑 或 ， 撤 号 (') 表示 逻辑 非 ，0 
表示 false，1 表示 true。 使 用 这 些 表 示 法 ， 表 达 式 


(X+Y) * 2' 
可 表示 为 : 


(X or Y)and (not 2) 


B.3 布尔 代数 法 则 


图 B.1 列 出 了 布尔 代数 的 19 条 法 则 。 尽 管 许多 初始 法 则 看 起 来 很 明显 ,但 为 了 完整 性 ， 
它们 都 包括 在 内 。 


x x 
。 十 十 
性 口 


x x x 


(x ) 
XYy 
x+y 
Rs Ye 
xXx+(y+z) 
x: (y+ Zz) 
wR 
x: (x+y) 
xX+(X. y) 
(x: y) 
(x+y) 


图 B.1 布尔 代数 法 则 ， 可 用 于 简化 布尔 表达 式 


< x OX xX x Ox 


(x+Yy)+z 
(x = yt 
(x+y): (x+z) 
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x86 汇编 语言 快速 入 门 





CC 二 一 汪 | 言 

工程 师 使 用 术语 x86 来 指 代 使 用 由 英特尔 公司 创建 的 体系 结构 的 一 系列 处 理 器 9?。 英 特 
尔 系列 中 的 每 个 处 理 器 都 比 其 前 代 产 品 更 强大 。 随 着 时 间 的 推移 ， 设 计 从 16 位 架构 变 为 32 
位 架构 。 在 转换 期 间 ， 英 特 尔 强制 实施 向 后 兼容 性 ， 以 保证 该 系列 中 较 新 的 芯片 可 以 执行 为 
早期 芯片 编写 的 代码 。 因 此 ， 基 础 保持 不 变 。 

x86 经 历 了 另 一 次 转换 ， 这 次 是 从 32 位 架构 到 64 位 架构 ; 这 一 变化 是 由 英特尔 竞争 对 
手 AMD 领导 的 。 再 次 ， 向 后 兼容 性 是 转换 的 关键 部 分 。 在 本 附录 中 ， 我 们 将 首先 讨论 32 
位 版 本 ， 然 后 描述 64 位 扩展 。 

因为 它 遵 循 CISC 方法 ，x86 处 理 器 具有 大 型 复杂 的 指令 集 。 实 际 上 ， 指 令 集 非 常 庞 
大 一 一 记录 指令 的 供应 商 手 册 包 含 近 3000 页 。x86 可 以 包含 用 于 高 速 图 形 操作 、 三 角 函 数 
的 特殊 指令 ， 以 及 操作 系统 用 于 控制 处 理 器 模式 、 设 置 保护 和 处 理 IO 的 大 量 指令 。 在 最 近 
的 处 理 器 上 运行 的 应 用 程序 ， 除 了 使 用 32 位 指令 之 外 ， 英 特 尔 x86 处 理 器 保留 了 支持 以 前 
版 本 的 硬件 。 因 此 ， 我 们 无 法 在 本 附录 中 查看 整个 指令 集 。 相 反 ， 我 们 提供 介绍 基础 知识 
概述 。 一 旦 程序 员 掌 握 了 一 些 基础 知识 ， 学 习 新 指令 就 很 简单 。 


C.2 x86 通用 寄存 器 


作为 扩展 的 结果 ，x86 架构 会 遇 到 令 人 困惑 和 不 可 预料 的 不 一 致 。 例 如 ， 该 体系 结构 包 
括 8 个 通用 和 寄存器， 并且 在 通用 寄存 器 的 命名 和 引用 方式 上 ， 不 一 致 性 尤其 明显 。 特 别 是 ， 
初始 设计 使 用 了 4 个 通用 16 位 寄存 器 ， 汇 编 语言 为 每 个 寄存 器 的 各 个 字 节 提供 了 名 称 。 当 
寄存 器 扩展 到 32 位 时 ， 每 个 扩展 寄存 器 都 有 一 个 名 称 ， 并 且 该 架构 将 每 个 原始 16 位 寄存 器 
映射 到 相应 扩展 寄存 器 的 低 16 位 。 因 此 ， 汇 编 语 言 提 供 了 一 组 名 称 ， 人 允许 程序 员 引 用 整个 
32 位 寄存 器 、 寄 存 器 的 低 16 位 区 域 或 这 16 位 区 域内 的 单个 字 节 。 不 幸 的 是 ， 这 些 名 字 令 
人 困惑 。 最 初 ， 寄 存 器 被 指定 了 特定 目的 ， 名 称 反 映 了 历史 用 途 。 图 C.1 说 明了 8 个 通用 寄 
存 器 ， 列 出 了 它们 的 历史 目的 ， 并 给 出 了 寄存 器 的 名 称 以 及 每 个 子 部 分 。 

尽管 大 多 数 寄存 器 不 再 局 限于 其 原始 用 途 ， 但 堆栈 指针 (ESP) 和 基 指 针 (EBP) 仍 具 有 
特殊 含义 。 下 面 解释 在 过 程 调用 期 间 使 用 基 指 针 和 堆栈 指针 。 


日 名 称 的 产生 是 因为 英特尔 分 配 的 部 件 号 ， 例 如 8086、80286、80386 和 80486。 
日 因为 大 多 数 汇编 程序 不 区 分 大 写 和 小 写 ， 所 以 名 称 eax 和 EAX 指 的 是 同一 个 寄存 器 。 程 序 员 倾向 于 使 用 小 
写 ， 文 档 倾向 于 使 用 大 写 。 
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AX (16 位 ) 


累加 寄存 器 


基 址 寄存 器 


计数 寄存 器 


数据 寄存 器 

源 变 址 寄存 器 

目地 变 址 寄存 器 
堆栈 指针 寄存 器 


基地 址 指针 寄存 器 
C.1 x86 处 理 器 上 的 八 个 通用 寄存 器 ， 它 们 的 历史 目的 ， 以 及 用 于 引用 寄存 器 和 子 部 分 的 名 称 





C.3 允许 的 操作 数 


操作 数 指定 要 在 操作 中 使 用 的 值 和 结果 的 位 置 。 操 作 数 可 以 指定 其 中 一 个 寄存 器 、 内 存 
中 的 位 置 或 常量 。 每 条 指令 都 指定 了 人 允许 的 组 合 。 例 如 ，mov 指令 将 数据 从 一 个 位 置 复制 
到 另 一 个 位 置 。mov 可 以 将 常量 复制 到 寄存 器 或 内 存 ， 或 者 可 以 将 数据 值 从 寄存 器 复制 到 内 
存 ， 从 内 存 复制 到 寄存 器 ， 或 从 一 个 寄存 器 复制 到 另 一 个 寄存 器 。 但 是 ，mov 无 法 将 数据 从 
一 个 内 存 位 置 直接 复制 到 另 一 个 内 存 位 置 。 因 此 ， 要 在 两 个 内 存 位 置 之 间 复 制 数 据 ， 程 序 员 
必须 使 用 两 个 指令 。 首 先 ， 程序 员 使 用 mov 将 数据 从 内 存 复 制 到 寄存 器 ， 其 次 ， 程 序 员 使 
用 mov 将 数据 从 寄存 器 复制 到 新 的 内 存 位 置 。 

图 C.2 列 出 了 用 于 描述 给 定 指令 允许 的 操作 数 集 的 命名 法 。 


<reg32> 任何 32 位 寄存 器 ， 例 如 EAX，EBX，.… 
<reg16> 任何 16 位 寄存 器 ， 例 如 AX，BX，.…. 
<reg8> 任何 8 位 寄存 器 , 例如 AH, AL, BH, BL... 
<reg> 任何 32 位 、16 位 或 8 位 寄存 器 


<con32> 任何 32 位 常数 

<con16> 任何 16 位 常数 

<con8> 任何 8 位 常数 

<con> 任何 32 位 、16 位 或 8 位 常数 
<mem> 任何 内 存 地 址 


图 C.2 ”用 于 指定 允许 的 操作 数 的 命名 法 
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下 一 节 解 释 了 如 何 计算 内 存 地 址 。 目 前 ， 只 需 理解 我 们 将 使 用 图 C.2 中 的 术语 来 解释 指 
令 就 足够 了 。 例 如 ， 考 虑 mov 指令 ， 它 将 目标 操作 数 指定 的 数 
据 项 复制 到 源 操作 数 指定 的 位 置 。 图 C.3 使 用 图 C.2 中 的 命名 源 操作 数 ”目标 操作 数 








法 列 出 了 mov 的 允许 操作 数组 合 。 ee 
<mem> <reg> 
C.4 英特尔 和 AT & T 形式 的 x86 汇编 语言 We 
在 我 们 检查 指令 之 前 ， 了 解 一 些 汇编 语言 基础 知识 非常 重 I 
要 。 例如， 汇编 语言 采用 固定 语句 格式 ， 每 行 一 条 语句 : 图 C3 Aa 
标签 操作 码 操作 数 … 作 数 组 合 


语句 中 的 标签 是 可 选 的 ， 由 用 于 标识 语句 的 名 称 组 成 。 如 
果 语 句 定义 了 数据 项 ， 则 标签 指示 项 的 名 称 ; 如 果 语 句 包含 代码 ， 则 标签 后 跟 冒 号 ， 可 用 于 
将 控制 传递 给 语句 。 操 作 码 字 段 定 义 数据 项 的 类 型 或 指定 指令 ; 操作 码 后 面 有 零 个 或 多 个 操 
作 数 ， 以 提供 有 关 数 据 或 操作 的 更 多 详细 信息 。 

不 幸 的 是 ， 已 经 创建 了 许多 x86 汇编 语言 编译 器 ， 每 个 汇编 器 都 具有 区 别 于 其 他 汇编 器 
的 特征 。 我 们 将 重点 关注 两 个 主要 类 别 ， 而 不 是 检查 每 个 单独 的 汇编 器 。 第 一 类 采用 最 初 由 
英特尔 定义 并 由 微软 采用 的 语法 ; 它 被 非 正式 地 称 为 英特尔 汇编 语言 或 Microsoft-Intel 汇编 
语言 。 第 二 类 采用 最 初 由 AT & T 贝 尔 实验 室 为 UNIX 定义 的 语法 ， 并 由 开源 社区 采用 ， 用 
于 Linux; 它 被 称 为 AT & T 汇编 语言 或 GNU 汇编 语言 (gas)。 

这 两 种 类 型 的 汇编 器 在 功能 上 是 等 价 的 ， 因 为 它们 允许 程序 员 编 写 任意 x86 指令 序列 
并 在 内 存 中 声明 任意 数据 项 。 尽 管 总 体 上 有 相似 之 处 ， 但 两 种 类 型 的 汇编 器 在 许多 细节 上 有 
所 不 同 。 例 如 ， 列 出 操作 数 的 顺序 、 引 用 寄存 器 的 方式 以 及 注释 语法 不 同 。 虽 然 可 以 使 用 任 
何 一 种 类 型 ， 但 程序 员 可 能 会 发 现 一 种 类 型 更 直观 、 更 方便 ， 或 者 有 助 于 捕获 更 多 的 编程 错 
误 。 由 于 这 两 种 类 型 的 汇编 器 在 工业 界 中 广泛 使 用 ， 我 们 将 检查 每 种 类 型 的 汇编 程序 。 


C.4.1 英特尔 汇编 语言 的 特点 

英特尔 汇编 器 具有 以 下 特征 : 

e 操作 数 顺序 是 从 右 到 左 ， 右 侧 是 源 ， 左 侧 是 目标 。 

e 注释 以 分 号 (;) 开头 。 

e 寄存 器 名 称 编码 没有 标点 符号 (例如 ，eax)。 

e 立即 数 常 量 没 有 标点 符号 。 

。 汇编 器 从 操作 数 推导 出 操作 码 类 型 。 

为 了 记 住 操作 数 顺 序 ， 程 序 员 可 以 用 高 级 语言 来 思考 赋值 语句 : 表达 式 在 右 侧 ， 值 分 配 
给 左 侧 的 变量 。 因 此 ， 在 英特尔 汇编 语言 中 ， 编 写 了 一 个 数据 移动 操作 : 

mov target, source 

例如 ， 以 下 代码 将 2 与 寄存 器 EBX 的 内 容 相 加 ， 并 将 结果 放 在 寄存 器 EAX 中 ， 


mov eax, ebx+2 


x86 硬件 具有 隐 式 操作 数 类 型 ， 这 意味 着 在 运行 时 ， 操 作 码 指定 操作 数 的 类 型 。 例 如 ， 
硬件 包含 每 个 可 能 的 操作 数 类 型 的 操作 码 ， 而 不 是 一 个 mov 指令 。 也 就 是 说 ，x86 具有 移动 
字 节 的 操作 码 ， 移 动 字 的 另 一 个 操作 码 ， 等 等 。 十 六 进 制 值 为 88，89，8A，8B，8C，… 当 
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它 产生 二 进 制 代码 时 ， 英 特 尔 汇编 器 从 操作 数 类 型 中 推导 出 正确 的 操作 码 。 如 果 目 标 是 单个 
字 节 ， 则 汇编 器 选择 移动 一 个 字 节 的 操作 码 ; 如 果 目 标 是 16 位 寄存 器 ， 则 汇编 器 选择 移动 
16 位 值 的 操作 码 ; 依 此 类 推 。 每 个 指令 遵循 相同 的 模式 一 一 尽管 程序 员 在 程序 中 使 用 单个 
助 记 符 (例如 ，add 为 加 法 ，sub 为 减法 )， 处 理 器 对 每 个 操作 都 有 一 组 操作 码 ， 对 于 程序 
员 指 定 的 操作 数 ， 英 特 尔 汇编 器 选择 适当 的 操作 码 。 


C.4.2 AT&T 汇编 语言 的 特点 


AT & 了 汇编 器具 有 以 下 特征 : 
e 操作 数 顺 序 是 从 左 到 右 ， 源 位 于 左 侧 ， 目 标 位 于 右 侧 。 
e 注释 包含 在 /* .…*/ 中 ， 或 以 井 号 (# ) 开头 。 
寄存 器 名 称 前 面 有 百 分 号 〈( 例 如 ，%eax ) 。 
e 立即 数 前 面 有 一 个 美元 符号 ($)。 
e 程序 员 选 择 一 个 指示 类 型 和 操作 的 助 记 符 。 
操作 数 顺序 与 英特尔 汇编 程序 使 用 的 顺序 完全 相反 。 因 此 , 在 AT &T 汇 编 语言 中 ， 编 
写 一 个 数据 移动 操作 的 代码 如 下 : 
mov source, target 


例如 ， 下 面 的 代码 将 2 和 寄存 器 EBX 的 内 容 相 加 ， 并 将 32 位 结果 放 人 寄存 器 EAX 中 。 


movl %ebx+2, %eax 


C.5 算术 指令 

加 减 。x86 上 的 许多 算术 和 逻辑 运算 都 有 两 个 参数 : 源 和 目标 。 目 标 指定 位 置 (例如 寄 
存 器 )， 源 指定 位 置 或 常量 。 处 理 器 使 用 两 个 操作 数 执行 指定 的 操作 ， 然 后 将 结果 放 在 目标 
操作 数 中 。 例 如 ， 指 令 : 

Intel: add eax,ebx 

AT&T: add %ebx,%eax 


使 处 理 器 将 寄存 器 EAX 和 EBX 中 的 值 相 加 ， 然 后 将 
结果 放 在 寄存 器 EAX 中 。 换 句 话 说， 处 理 器 通过 将 
EBX 中 的 值 加 到 EAX 来 更 改 EAX。 图 C.4 列 出 了 多 
许 的 加 法 和 减法 操作 数组 合 。 

递增 和 递减 。 除 了 add 和 sub 之 外 ,x86 还 提 
供 递增 或 递减 指令 ， 可 以 增加 或 减少 1。 这 些 指令 具 
有 操作 码 inc 和 dec ( AT & TT 汇编 器 中 加 了 一 个 指 “图 C4 加 法 或 碱 法 操作 数 允许 的 组 合 
示 符 )， 每 个 指令 都 有 一 个 参数 ， 可 以 是 任何 寄存 器 
或 任何 存储 单元 。 例 如 ， 指 令 : 

Intel: inc ecx 

AT&T: incl %ecx 


将 寄存 器 ECX 的 值 递 增 1。 程 序 员 必须 决定 是 使 用 inc 还 是 add。 
在 指令 集中 包含 递增 和 递减 指令 说 明了 有 关 该 体系 结构 的 重要 原则 : 
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“CISC 体系 结构 (例如 与 x86 一 起 使 用 的 体系 结构 ) 通常 提供 多 个 指令 来 执行 给 定 的 
SE 汪 册 全 和 Fe 和 


乘法 和 除法 。 整 数 乘法 和 除法 对 计算 机 架构 师 构成 了 一 个 有 趣 的 挑战 。 当 一 对 寄存 器 相 
乘 时 产生 的 乘积 (长 度 ) 可 能 超过 一 个 寄存 器 (长 度 )。 实 际 上 ， 该 乘积 可 以 是 寄存 器 长 度 的 
两 倍 。 大 多 数 计算 机 还 允许 整数 除法 中 使 用 的 被 除数 (长 度 ) 大 于 单个 寄存 器 (长 度 )。 

x86 包含 整数 乘法 和 除法 的 许多 变 体 。 乘 法 的 一 些 变 体 允 许 程序 员 将 结果 限制 为 特定 大 
小 (例如 ， 将 乘积 限制 为 32 位 )。 为 了 处 理 乘积 超过 一 个 寄存 器 的 情况 ，x86 使 用 两 个 寄存 
器 的 组 合 来 保存 结果 。 例 如 ， 当 乘 以 两 个 32 位 值 时 ，x86 将 64 位 结果 放 在 EDX 和 EAX 寄 
存 器 中 ，EDX 保持 最 高 32 有 效 位 ，EAX 保持 最 低 32 有 效 位 。 

x86 还 允许 整数 除法 具有 64 位 操作 数 ， 存 储 在 一 对 寄存 器 中 。 当 然 ， 整 数 除法 也 可 以 
用 于 较 小 的 数 。 即 使 被 除数 不 占 64 位 ，x86 也 可 以 使 用 两 个 寄存 器 来 保存 整数 除法 的 结 
果 : 一 个 保持 商 ， 另 一 个 保持 余数 。 有 一 种 方法 来 捕获 余数 使 得 诸如 散 列 之 类 的 计算 变 得 
有 效 。 

x86 提供 了 两 种 基本 的 乘法 形式 。 第 一 种 形式 遵循 与 加 法 或 减法 相同 的 范例 : 乘法 指令 
有 两 个 参数 ， 结 果 会 覆盖 第 一 个 参数 中 的 值 。 第 二 种 形式 有 三 个 参数 ， 第 三 个 参数 是 常量 。 
处 理 器 将 第 二 个 和 第 三 个 参数 相 乘 ， 并 将 结果 放 在 第 一 个 参数 指定 的 位 置 。 例 如 ， 


Intel: imul eax,edi,42 


AT&T: imul %edi,42,%eax 
将 寄存 器 EDI 的 内 容 乘 以 42， 并 将 结果 放 人 寄存 器 EAX 中 。 
C.6 ”逻辑 运算 
x86 处 理 器 提供 逻辑 运算 ,将 数据 项 视 为 一 串 位 并 对 各 个 位 进行 操作 。 三 个 逻辑 运算 对 


两 个 操作 数 执行 逐 位 运算 : 逻辑 与 、 逻 辑 或 和 逻辑 异 或 。 第 四 个 逻辑 运算 (逻辑 非 ) 在 单个 
操作 数 上 执行 位 反 转 。 图 C.5 列 出 了 逻辑 运算 使 用 的 操作 数 类 型 。 


逻辑 与 、 逻 辑 或 、 逻 辑 异 或 
源 操作 数 





<reg> 

<mem> 
<reg> 
<con> 
<con> 


图 C.5 对 于 逻辑 与 、 人 逻辑 或 、 逻 辑 异 或 以 及 逻辑 非 指令 允许 的 操作 数组 合 





除 逐 位 逻辑 运算 外 ，x86 还 支持 移 位 。 移 位 可 以 应 用 于 寄存 器 或 存储 器 位 置 。 本 质 上 ， 
移 位 采用 当前 值 ， 向 左 或 向 右 移动 指定 的 量 ， 并 将 结果 放 回 寄存 器 或 存储 器 位 置 。 移 位 时 ， 
x86 提供 零 位 以 在 需要 时 填充 。 例 如 ， 当 左 移 天 位 时 ， 硬 件 将 结果 的 低 天 位 设置 为 零 ， 当 
右 移 KK 位 时 ,硬件 将 结果 的 高 位 设置 为 零 。 图 C.6 列 出 了 左右 移 位 操作 使 用 的 允许 操 
作 数 。 
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左 移 (shl) 和 右 移 (shr) 
源 操 作 数 目的 操作 数 


<con8> <reg> 
<con8> <mem> 


<cl> <reg> 
<cl> <mem> 





图 C.6 移 位 指令 的 允许 操作 数组 合 。 符 号 <cl> 指 的 是 8 位 寄存 器 CL 


C.7 基本 数据 类 型 


x86 的 汇编 语言 允许 程序 员 定 义 初始 化 和 未 初始 化 的 数据 项 。 数 据 声明 必须 以 .data 
汇编 程序 指令 开头 ,该 指令 告诉 汇编 程序 将 项 视 为 数据 。 程 序 员 可 以 定义 每 个 单独 的 数据 
项 ， 或 者 可 以 定义 一 系列 未 命名 的 数据 项 以 占用 连续 的 内 存 位 置 。 

图 C.7 列 出 了 可 用 的 基本 数据 类 型 ， 该 图 假设 AT & T 汇 编 器 设置 为 生成 32 位 处 理 器 
的 代码 。 


英特尔 所 用 名 称 AT&T 所 用 名 称 ”长 度 ( 字 节 数 ) 


DB ( 字 节 数据 ) .byte (单字 节 ) 


DW( 字 数据 ) .hword ( 半 字 ) 
DD( 双 字 数据 ) .long (长 字 ) 
DQ( 四 字数 据 ) .quad (四 字 ) 


图 C.7 用 于 英特尔 汇编 器 和 AT&T 汇编 器 的 基本 数据 类 型 


每 种 类 型 的 汇编 器 都 允许 程序 员 为 数据 项 分 配 初始 值 。 在 英特尔 汇编 器 中 ， 标 签 从 第 1 
列 开始 ， 接 下 来 显示 数据 类 型 ， 并 且 该 项 的 初始 值 遵循 数据 类 型 。 英 特 尔 汇编 程序 使 用 问号 
表示 数据 项 未 初始 化 。 在 AT & T 汇 编程 序 中 ,标签 以 冒号 结尾 ， 后 跟 类 型 和 初始 值 ; 如 果 
省 略 初 始 化 ， 则 假定 为 零 。 图 C.8 和 C.9 说 明了 两 种 类 型 的 汇编 程序 的 声明 。 





; 数据 声明 的 开始 (英特尔 汇编 器 ) 
; 四 个 字 节 ， 未 初始 化 

; 四 个 字 节 ， 

; 两 个 字 节 ， 

;两 个 字 节 ， 

;一 个 字 节 ， 

; 一 个 字 节 ， 


; 数据 声明 的 开始 (AT & T 汇编 器 ) 
， 初 始 化 为 0 
， 初 始 化 为 0 
， 初 始 化 为 -54 
， 初 始 化 为 0 
， 初 始 化 为 0 
， 初 始 化 为 6 





图 C.9 使 用 AT&T 汇 编 器 式 数据 声明 的 例子 


汇编 器 将 连续 的 数据 项 放 在 相 邻 的 内 存 字 节 中 。 在 图 中 ， 名 为 u 的 项 放 在 名 为 v 的 项 
后 面 的 字 节 中 。 同 样 ，y 放 在 z 之 外 ; 因为 z 是 四 字 节 长 ， 所 以 y 开始 超出 z 开始 的 位 置 


府 录 C x86 汇编 语言 忌 叶 入 门 279 


的 四 个 字 节 。 


C.8 数据 块 、 数 组 和 字符 串 


虽然 x86 汇编 语言 不 提供 数据 聚合 ， 例 如 结构 体 ， 但 它 确实 允许 程序 员 声 明 多 次 出 现 占 
用 连续 内 存 位 置 的 数据 项 。 例 如 ， 要 声明 三 个 初始 化 为 1、2 和 3 的 16 位 项 ， 程 序 员 可 以 编 
写 三 个 单独 的 行 ， 每 个 行 声明 一 个 项 或 可 以 在 一 行 中 列 出 多 个 项 : 

Intel: q DW | 

AT&T: q: .hword 1,2,3 

英特尔 汇编 器 使 用 修饰 符 K DUP ( 值 )， 多 次 重复 数据 值 ; AT & T 汇编 器 使 用 .space 
用 一 个 值 填充 指定 大 小 的 内 存 。 例 如 ， 为 了 声明 初始 化 为 数值 220 的 字 节 数据 重复 一 千 次 ， 
代码 如 下 : 


Intel: S DB 1000 DUP(220) 
AT&T: 3 .Space 1000, 220 
AT &T 汇 编 器 提供 .rept 宏 来 声明 重复 更 大 的 项 ， 例 如 十 几 次 出 现 的 四 字 节 零 : 
Intel: DD 12 DUP(O) 
AT&T: -rept 12 
.Iong 0 


.endr 


除了 数值 之 外 ，x86 汇编 语言 还 允许 程序 员 使 用 ASCII 字符 作为 初始 值 。 英 特 尔 汇编 器 
将 字符 常量 括 在 单 引 号 中 ， 并 允许 使 用 多 个 字符 来 形成 字符 串 。 汇 编 器 不 会 添加 尾随 零 ( 空 
终止 )。AT & TT 汇编 器 用 双 引 号 括 起 一 串 字 符 ， 并 使 用 指令 .ascii 或 .asciz 声 明 一 个 
字符 串 ; .ascii 不 会 添加 空 终 止 字 节 ， 而 .asciz 会 这 样 做 。 例 如 ， 程 序 员 可 以 在 内 存 
中 声明 一 个 初始 化 为 字母 Q 的 字 节 或 一 个 包含 字符 hello world 的 字符 串 ， 带 或 不 带 空 
终止 。 
C DB 
d DB hello world' 
e DB hello world', 0 


Intel: 


AT&T: 人 .ascii "Q" 
d: .ascii “hello world" 
e: .asciz "hello world" 
C.9 ”内存 引用 


正如 我 们 所 看 到 的 ， 许 多 x86 指令 允许 操作 引用 内 存 ， 以 获取 在 指令 中 使 用 的 值 或 存储 
结果 。x86 硬件 提供 了 一 种 程序 员 可 以 用 来 计算 内 存 地 址 的 复杂 机 制 : 可 以 通过 将 两 个 通用 
寄存 器 的 内 容 和 一 个 常量 相 加 来 形成 地 址 。 此 外 ， 其 中 一 个 寄存 器 可 以 乘 以 2、4 或 8。 有 
一 些 例子 将 说 明 一 些 可 能 性 。 

数据 名 称 。 最 简单 的 内 存 引用 形式 包括 对 命名 数据 项 的 引用 。 英 特 尔 汇编 器 使 用 方 括号 
括 起 内 存 项 的 名 称 ，AT & T 汇 编 器 在 名 称 前 面 加 一 个 美元 符号 。 在 任何 一 种 情况 下 ， 汇 编 
器 都 会 计算 分 配给 项 的 内 存 地 址 ， 并 用 指令 中 的 常量 替换 。 例 如 ， 如 果 汇 编程 序 包含 名 为 了 
的 16 位 数据 项 的 声明 ， 则 使 用 以 下 指令 将 16 位 值 从 存储 器 移动 到 寄存 器 DX 中 : 
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Intel: mov dx,[T] 
AT&T: movw $T,%dx 


间接 引用 寄存 器 。 程 序 员 可 以 计算 数值 ， 将 值 放 在 寄存 器 中 ， 然 后 指定 寄存 器 应 该 用 作 
内 存 地 址 。 例 如 ， 指 令 : 

Intel: mov ”eax, [ebx] 

AT&T: movl  (%ebx),%eax 
使 用 寄存 器 EBX 的 内 容 作 为 内 存 地 址 ， 并 将 从 该 地 址 开始 的 四 个 字 节 移动 到 寄存 器 
EAX 中 。 

计算 地 址 的 表达 式 是 允许 的 ， 前 提 是 它们 遵循 最 多 两 个 寄存 器 和 常量 相 加 的 规则 ， 并 可 
选择 将 其 中 一 个 寄存 器 乘 以 2、4 或 8。 例如， 可 以 通过 将 EAX 的 内 容 、ECX 的 内 容 和 常量 
16 相 加 来 形成 内 存 地 址 ， 然 后 使 用 该 地 址 来 存储 寄存 器 EDI 的 值 。 在 英特尔 表示 法 中 ， 操 
作 代 码 如 下 : 


mov [eax+exb+16],edi 


寻 址 规则 起 初 很 难 掌握 ， 因 为 它们 似乎 有 些 随意 。 图 C.10 列 出 了 有 效 和 无 效 内 存 引 用 
的 示例 。 


有 效 引 用 


mov eax, [lab1] ;将 内 存 中 标签 labl 位 置 处 的 4 个 字 节 移动 到 EAX 

mov [lab2], ebx ;将 EBX 中 的 4 个 字 节 存储 到 内 存 中 标签 lab2 位 置 处 

and eax, [esi-4] ;将 内 存 地 址 为 ESI-4 处 的 4 个 字 节 与 EAX 的 值 进 行 逻 辑 与 
not [edi+8] ;对 内 存 地 址 为 EDI+8 处 的 32 位 按 位 求 反 


mov [eax+2*ebx],0 ;将 0 写 入 内 存 地 址 为 EAX+2*EBX 处 的 4 个 字 节 
mov cl,[esit4*ebx] ;将 内 存 地 址 为 ESI+4*EBX 处 的 1 个 字 节 内 容 拷贝 到 寄存 器 CL 


无 效 引用 
mov eax, [esi-ebx]  ; 两 个 寄存 器 不 能 用 减 号 直接 相 减 
mov [eax+ebx+cl],0 ; 不 能 指定 多 于 2 个 寄存 器 


图 C.10 使 用 英特尔 表示 法 的 有 效 和 无 效 内 存 引 用 的 示例 





C.10 ”数据 大 小 推断 和 显 式 大 小 指示 


因为 可 以 在 运行 时 计算 内 存 地 址 ， 所 以 地 址 仅 包含 无 符号 的 32 位 整数 值 。 也 就 是 说 ， 
地 址 本 身 不 指定 内 存 中 项 的 大 小 。x86 汇编 器 使 用 启发 式 方法 尽 可 能 地 推断 数据 大 小 。 例 如 ， 
因为 以 下 指令 将 值 从 存储 器 拷贝 到 寄存 器 EAX (长 度 为 4 个 字 节 )， 汇 编 器 将 推断 存储 器 地 
址 是 指 四 字 节 值 。 例 如 ， 在 英特尔 表示 法 中 ， 指 令 是 : 


mov eax,[ebx+esi+12] 


类 似 地 ， 如 果 已 将 名 称 分 配给 声明 为 单个 字 节 的 数据 项 ， 则 汇编 器 会 推断 对 该 名 称 的 内 
存 引用 是 指 一 个 字 节 。 但 是 ， 在 某 些 情况 下 ， 程 序 员 必须 使 用 显 式 大 小 指示 来 指定 数据 项 的 
大 小 。 例 如 ， 假 设 程序 员 和 希望 将 -1 存储 在 内 存 中 的 16 位 字 中 。 程 序 员 计 算 一 个 存储 器 地 
址 ， 该 地 址 放 在 寄存 器 EAX 中 。 汇 编 器 不 能 知道 程序 员 认 为 该 地 址 指向 一 个 16 位 〈 即 两 字 
节 ) 数据 项 ， 并 推断 它 指 的 是 一 个 四 字 节 项 。 因 此 ， 程 序 员 必须 在 内 存 引 用 之 前 添加 大 小 指 
示 ， 如 以 下 使 用 英特尔 表示 法 的 示例 所 示 : 
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mov WORD PTR [eax],-1 


如 果 有 任何 疑问 ， 即 使 在 汇编 器 的 推理 规则 产生 正确 结果 的 情况 下 ， 使 用 大 小 指示 来 明 
确 也 是 一 种 很 好 的 编程 习惯 。 图 C.11 总 结 了 可 用 的 三 种 大 小 指示 。 


C.11 计算 地 址 
我 们 说 可 以 计算 整数 值 ， 放 在 寄存 器 中 ， 





含义 
引用 一 个 单字 节 内 存 地 址 





然后 用 作 内 存 地 址 。 但 是 ， 大 多 数 地 址 计算 都 引用 一 个 16 位 的 内 存 地 址 
是 从 内 存 中 的 已 知 位 置 开始 的 ， 例 如 数组 的 初 是 一个 于 人 的 内 让 地 外 
始 位 置 。 例 如 ， 对 于 英特尔 汇编 程序 ， 假 设 已 。 ”图 C.11 可 以 添加 到 英特尔 汇编 程序 的 内 存 
使 用 名 称 iarray 声明 了 一 个 四 字 节 整数 数组 引用 的 大 小 指示 

并 初始 化 为 零 : 


iarray DB 1000 DUP(0) 

可 以 通过 将 i 乘 以 4 (因为 每 个 元 素 长 度 为 4 个 字 节 ) 并 将 结果 添加 到 数组 的 第 一 个 字 
节 的 地 址 来 计算 第 i 个 元 素 的 存储 位 置 。 

运行 程序 如 何 获取 数组 第 一 个 字 节 的 地 址 ? 更 一 般 地 说 ,程序 如 何 获 得 任意 变量 的 内 存 
地 址 ? 答案 在 于 一 个 特殊 的 指令 ， 它 将 地 址 加 载 到 寄存 器 而 不 是 值 。 由 名 称 加 载 有 效 地 址 和 
助 记 符 lea 指定 ， 特 殊 指 令 将 寄存 器 和 内 存 位置 作 为 操作 数 。 与 mov 指令 不 同 ，lea 不 访 
问 内 存 中 的 项 。 相 反 ，1lea 在 计算 内 存 地 址 后 停止 ， 并 将 地 址 放 在 指定 的 寄存 器 中 。 例 如 ， 


lea eax, [iarray] 


将 iarray 的 第 一 个 字 节 的 内 存 地 址 放 在 寄存 器 EAX 中 。 

观察 到 计算 四 字 节 整数 数组 的 第 i 个 元 素 的 偏 移 量 是 直截了当 的 。 首 先 ， 将 i 工 放 在 寄 
存 器 中 ,例如 EBX。 一 旦 索引 在 寄存 器 中 ， 就 可 以 使 用 单个 lea 指令 计算 该 数组 元 素 对 应 
的 内 存 位 置 : 


mov ebx,[i] ; 在 内 存 中 从 变量 羡 处 获得 索引 
lea eax,[4*ebx+tiarray]  ; 将 第 羡 个 元 素 的 地 址 放 入 EAX 中 


C.12 ”堆栈 操作 一 一 入 栈 和 出 栈 


x86 硬件 包括 操作 内 存 堆 栈 的 指令 。 堆 栈 是 后 进 先 出 (LIFO) 数据 结构 ， 首 先 访问 最 近 
添加 的 项 。 与 其 他 处 理 器 上 的 堆栈 一 样 ，x86 堆栈 向 下 增长 ， 新 项 会 添加 在 连续 的 较 低 的 内 
存 地 址 中 。 尽 管内 存 不 断 下 降 ， 但 我 们 说 最 近 添 加 的 项 位 于 堆栈 的 “顶部 ” 。 

当 将 一 个 项 添加 到 一 个 堆栈 时 ， 我 们 说 该 项 被 压 入 堆栈， 堆栈 的 顶部 对 应 于 新 项 。 当 从 
堆栈 中 删除 顶部 项 时 ， 我 们 说 已 经 弹出 了 堆栈 。 

x86 堆栈 始终 使 用 四 字 节 项 一 一 当 将 项 压 和 人 堆栈 时 ， 将 使 用 额外 四 个 字 节 的 内 存 。 类 似 
地 ， 当 从 堆栈 弹出 一 个 项 时 ， 该 项 包含 四 个 字 节 ， 并 且 该 堆栈 减少 四 个 字 节 的 内 存 占用 。 

在 x86 中 ，ESP 寄存 器 〈 栈 项 指针 ) 包含 堆栈 顶部 的 当前 地 址 。 因 此 ， 虽 然 ESP 没有 明 
确 显 示 , 但 堆栈 操作 指令 总 是 会 更 改 ESP 中 的 值 。 堆 栈 指 令 的 名 称 反 映 了 上 面 描述 的 通用 
术语 : 人 栈 (push) 和 出 栈 (pop)。 图 A3.12 列 出 了 允许 的 参数 类 型 。 

一 旦 设置 了 寄存 器 ESP， 向 堆栈 添加 项 是 容易 的 。 例 如 ， 指 令 : 


push eax 


push <reg32> pop <reg32> 
push <mem> pop <mem> 
push <con32> 


图 C.12 push 和 pop 指令 允许 使 用 的 操作 数 
将 寄存 器 EAX 的 值 压 人 堆栈 ， 而 指令 : 
pop [qqqq] 
弹出 堆栈 顶部 并 将 值 放 在 名 为 qqqq 的 内 存 位置 。 同 样 ， 指 令 : 
push -1 


将 常量 -1 推 人 堆栈 。x86 硬件 没有 堆栈 边界 限制 ， 这 意味 着 程序 员 必 须 仔 细 规 划 堆 栈 使 用 ， 
以 避免 堆栈 向 下 扩展 到 用 于 其 他 变量 的 内 存 区 域 。 


C.13 控制 流 和 无 条 件 分 支 


通常 ， 在 执行 语句 之 后 ， 处 理 器 继续 执行 下 一 个 语句 。x86 支持 三 种 更 改 控制 流 的 指令 : 

e 无 条 件 分 支 。 

e 条 件 分 支 。 

。 子 程序 调用 和 返回 。 

无 条 件 分 支 指令 是 最 容易 理解 的 : 操作 码 是 jmp (用 于 “ 跳 转 ”)， 唯 一 的 操作 数 是 语句 
上 的 标签 。 当 遇 到 jmp 指令 时 ， 处 理 器 立即 移动 到 指定 的 标签 并 继续 执行 。 例 如 ， 


jmp prntname 


表示 处 理 器 将 执行 的 下 一 条 指令 是 带 有 标签 prntname 的 指令 。 程 序 员 必 须 将 标签 放 在 指 
令 上 《可 能 是 打印 名 称 的 序列 中 的 第 一 条 指令 )。 在 英特尔 表示 法 中 ， 程 序 员 写 道 : 


prntname: mov ”eax, [nam] 


C.14 条 件 分 支 和 条 件 码 


每 个 算术 指令 在 处 理 器 中 设置 一 个 称 为 条 件 码 的 内 
部 值 。 条 件 分 支 指令 使 用 条 件 码 的 值 来 选择 是 分 支 还 是 


继续 执行 下 一 条 顺序 语句 。 存 在 一 组 条 件 分 支 指令 ， 每 we 

条 指令 编码 一 个 特定 的 测试 。 图 C.13 总 结 如 下 : 为 0 时 跳 转 
例如 ， 如 果 结 果 值 为 零 ， 则 英特尔 表示 法 中 的 以 下 j 不 为 0 时 跳 转 

代码 会 递减 寄存 器 EBX 并 跳 转 到 标签 atzero。 j 大 于 时 跳 转 
和 ee 大 于 等 于 时 跳 转 
jz atzero ; 如果 EBX 变 为 0， 则 跳 转 到 标签 atzero 处 j 小 于 时 跳 转 





图 C.13 中 的 一 些 指令 要 求 程序 员 比 较 两 个 项 。 例 ， A 
如 ，jge 测试 大 于 或 等 于 。 但 是 ， 条 件 分 支 指令 不 执 。 ”图 C.13 条 件 分 支 指令 及 其 含义 


脏 有 如 C X86 汇 妨 语 言 快 吐 入门 283 


行 比 较 一 一 它们 具有 单个 操作 数 ， 该 操作 数 由 指定 分 支 位 置 的 标签 组 成 。 与 算术 测试 一 样 ， 
涉及 比较 的 条 件 分 支 依赖 于 条 件 码 。 各 种 指令 设置 条 件 码 ， 这 意味 着 条 件 分 支 可 以 在 条 件 码 
设置 后 立即 执行 。 如 果 条 件 分 支 没有 立即 跟随 设置 条 件 码 的 指令 ， 则 程序 员 必 须 编 写 设置 条 
件 的 额外 指令 。x86 架构 包括 两 条 用 于 设置 条 件 码 的 指令 : test 和 cmp。 这 两 者 都 不 会 修 
改 寄存 器 或 内 存 的 内 容 。 相 反 ， 它 们 只 是 比较 两 个 值 并 设置 条 件 码 ,cmp 指令 检查 是 否 相 等 。 
本 质 上 ，cmp 执行 减法 ， 然 后 丢弃 答案 ， 仅 保留 条 件 码 。 例 如 ， 以 下 代码 (英特尔 表示 法 ) 
测试 内 存 位 置 var1l 中 的 四 字 节 值 是 否 具有 值 123， 如 果 是 ， 则 跳 转 到 标签 bb 处 。 

cmp DWORD PTR [var1], 123 ; 比较 内 存 项 varl 与 数值 123 

jeq bb ; 如 果 相 等 ， 则 跳 转 到 标签 bbb 

test 指令 更 复杂 : 它 执行 对 两 个 操作 数 的 逐 位 与 操作 ， 并 相应 地 设置 各 种 条 件 码 位 。 
结果 ，test 设置 诸如 数据 值 是 否 包 含 奇数 或 偶数 的 奇偶 校 验 码 。 


C.15 子 程序 调用 和 返回 值 


x86 硬件 支持 子 程 序 调用 ( 即 ， 调 用 子 程序 并 使 子 程序 call <label> 
返回 其 调用 程序 的 能 力 )。 子 例 程 调 用 是 高 级 过 程 语言 所 需 ot 
的 运行 时 支持 的 关键 部 分 。 图 C.14 用 于 调用 子 程序 的 指 
图 C.14 总 结 了 使 子 程序 调用 可 行 的 两 条 x86 指令 : 一 令 : call 调 用 子 程 
条 指令 用 于 调用 子 程序 ， 另 一 条 指令 用 于 从 子 程序 返回 调 序 ，ret 返回 调用 者 
用 者 。 


子 程序 调用 和 返回 使 用 运行 时 堆栈 。 例 如 ，cal1 指令 在 堆栈 上 压 人 返回 地 址 。 下 一 节 
将 讨论 细节 。 


C.16 C 调用 约定 和 参数 传递 


术语 调用 约定 是 指 调用 和 被 调用 程序 用 于 确保 协议 细节 的 规则 ， 例 如 参数 的 位 置 。 调 用 
约定 将 责任 分 配给 调用 程序 和 被 调用 的 子 程序 。 例 如 ， 约 定 确切 地 指定 了 调用 程序 如 何在 堆 
栈 上 压 人 子 程 序 使 用 的 参数 ， 以 及 子 程序 如 何 为 调用 程序 返回 一 个 值 供 其 使 用 。 

每 种 高 级 语言 都 定义 了 一 组 调用 约定 。 我 们 将 在 示例 中 使 用 流行 的 C 调用 约定 。 虽 然 
这 些 约 定 旨 在 允许 C 或 C++ 程序 调用 汇编 语言 程序 和 汇编 语言 程序 调用 C 函数 ,但 是 当 汇 
编 语言 程序 调用 汇编 语言 子 程序 时 ， 也 可 以 使 用 C 调用 约定 。 因 此 ， 我 们 的 例子 是 通用 的 。 

理解 调用 约定 的 最 简单 方法 是 在 调用 子 程序 时 可 视 化 运行 时 堆栈 的 内 容 。 我 们 的 例子 包 
括 一 个 调用 ， 它 将 三 个 整数 参数 (每 个 参数 四 个 字 节 ) 的 值 100、200 和 300 传递 给 一 个 子 
程序 ， 该 子 程序 有 四 个 局 部 变量 ， 每 个 变量 都 是 32 位 。 调 用 约定 在 调用 期 间 指定 以 下 内 容 : 

@ 调用 者 的 行为 。 调 用 者 将 寄存 器 EAX、ECX 和 EDX 的 值 压 人 堆栈 以 保存 它们 。 然 

后 ， 调 用 者 以 相反 的 顺序 将 参数 压 人 堆栈 。 因 此 ， 如 果 参 数 是 100、200 和 300， 则 
调用 者 压 人 300， 压 人 200， 然 后 压 人 100。 最 后 ， 调 用 者 调用 call 指令 ， 该 指令 
压 入 返回 地 址 ( 即 紧 跟 在 call 指令 后 面 的 地 址 ) 到 堆栈 并 跳 转 到 子 程序 。 

@ 被 调用 子 程序 的 行为 。 被 调用 的 子 程序 将 EBP 寄存 器 压 人 堆栈 ， 并 将 EBP 设置 为 堆 
栈 的 当前 顶部 。 调 用 者 将 EBX、EDI 和 ESI 寄 存 器 压 人 堆栈 ， 然 后 将 每 个 局 部 变量 
压 入 堆栈 (或 者 如 果 本 地 变量 未 初始 化 时 ， 仅 更 改 堆栈 指针 以 分 配 空间 )。 

图 C.15 说 明了 子 程序 调用 发 生 后 的 堆栈 ( 即 ， 在 调用 者 和 被 调用 的 子 程序 都 遵循 上 述 
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惯例 之 后 )。 要 理解 这 个 示意 图 ， 请 记 住 堆栈 在 内 存 中 向 下 增长 。 也 就 是 说 ， 入 栈 操作 递减 
堆栈 指针 ， 并 且 出 栈 操作 使 该 指针 递增 。 
完成 后 ， 被 调用 的 子 程序 必须 撤销 在 调用 


期 间 采 取 的 操作 并 返回 其 调用 者 。 以 下 指定 子 
程序 和 调用 者 在 返回 期 间 执 行 的 步骤 。 出 调用 者 
@ 被 调用 的 子 程序 的 返回 行为 。 被 调用 的 压 人 堆 杰 
子 程序 从 堆栈 中 释放 局 部 变量 。 为 此 ， 
子 程序 将 堆栈 指针 增加 4N 字 节 ， 其 中 
N 是 局 部 变量 的 数量 (假设 每 个 局 部 ET 
变量 长 度 为 4 字 节 )。 然 后 ， 子 程序 通 EBP 一 一 | saved EBP 
过 从 堆栈 中 弹出 保存 的 值 来 恢复 ESI、 
EDI、EBX 和 EBP 寄存 器 。 最 后 ， 子 被 调用 的 子 程 
程序 执行 一 个 ret 指令 ， 从 堆栈 中 弹 ”由 子 程序 saved ESI 序 的 入 栈 内 容 
出 返回 地 址 并 跳 转 返 回 到 调用 者 。 设置 
。 调用 者 的 返回 行为 。 当 被 调用 的 子 程序 | 
返回 时 ， 调 用 者 释放 参数 (例如 , 通过 0 Ee 7 
向 堆栈 指针 添加 一 个 等 于 参数 数量 四 





们 的 常量 )。 最 后 ， 调 用 者 恢复 EDX、 ge MR 


ECX 和 EAX 的 值 。 图 C.15 “使 用 三 个 参数 调用 子 程序 后 运行 时 堆 


C.17 ”函数 调用 和 一 个 返回 值 栈 的 示意 图 ， 子 程序 为 四 个 局 部 变量 


保留 了 空间 

从 技术 上 讲 ， 上 述 调用 约定 集 适用 于 过 程 
调用 。 在 函数 调用 的 情况 下 ， 子 程序 必须 向 调 
用 者 返回 一 个 值 。 按 照 惯例 ， 返 回 值 在 寄存 器 EAX 中 传递 。 因 此 ,在 调用 函数 时 ， 将 修改 
上 述 调用 约定 ， 以 便 调用 者 不 会 还 原 已 保存 的 EAX 值 。 

在 调用 函数 之 前 ， 调 用 者 将 EAX 保存 在 堆栈 中 是 否 有 意义 ? 一 旦 函数 返回 ，EAX 将 包 
含 返回 值 。 但 是 ， 保 存 EAX 有 两 个 原因 。 首 先 ， 对 于 已 调用 的 每 个 过 程 或 消 数 ， 符 号 调试 
器 期 望 堆栈 具有 相同 的 布局 。 其 次 ， 在 保存 了 函数 的 结果 后 ， 调 用 者 可 以 选择 继续 计算 。 例 
如 ， 假 设 编译 器 使 用 EAX 来 保存 循环 的 索引 变量 。 如 果 循 环 包含 如 下 语句 : 


nett)s 
编译 器 可 以 生成 代码 以 在 调用 之 前 保存 EAX 的 值 ， 在 函数 £ 返回 后 立即 将 返回 值 存储 在 内 
存 位置 r 中 ， 然 后 恢复 EAX 并 允许 循环 继续 。 


C.18 ”扩展 到 64 位 (x64) 


x86 架构 已 扩展 到 64 位 版 本 。 有 趣 的 是 ，AMD 公司 定义 了 最 终 由 英特尔 和 其 他 供应 商 
采用 的 扩展 方案 。 该 架构 称 为 86-64， 通 常 缩写 为 x64， 包 含 许多 更 改 。 例 如 ， 算 术 和 逻辑 
指令 、 涉 及 两 个 寄存 器 的 指令 、 涉 及 寄存 器 和 内 存 位 置 的 指令 以 及 涉及 两 个 内 存 位 置 的 指令 
都 已 扩展 为 以 64 位 值 进行 操作 。 堆 栈 操作 已 经 改变 ， 因 此 它们 一 次 压 人 和 弹出 64 位 (8 字 
节 )， 指 针 宽 度 为 64 位 。 与 我 们 的 讨论 最 相关 的 两 个 变化 涉及 通用 寄存 器 : 
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。 每 个 通用 寄存 器 都 已 扩展 为 长 达 64 位 。 

。 增加 了 8 个 通用 寄存 器 ， 总 共有 16 个 通用 寄存 器 。 

与 x86 一 样 ，x64 体系 结构 试图 保持 向 后 兼容 性 。 例 如 ， 每 个 64 位 寄存 器 的 下 半 部 分 
可 以 称 为 32 位 寄存 器 。 此 外 ， 可 以 完全 按照 x86 中 的 方式 引用 前 四 个 寄存 器 的 16 位 和 8 位 
部 分 。 图 C.16 说 明了 x64 中 可 用 的 通用 寄存 器 ， 读 者 应 该 将 该 图 与 图 C.1 进行 比较 。 








AX (16 位 ) 
BX (16 位 ) 
EBX 
CX (16 位 ) 
RCX ECX 





DX (16 位 ) 





图 C.16 x64 架构 的 通用 寄存 器 


C.19 小 结 


我 们 回顾 了 x86 的 基础 知识 ， 包 括 数据 声明 、 寄 存 器 、 操 作 数 类 型 、 基 本 指令 、 算 术 和 
逻辑 指令 、 内 存 引 用 、 堆 栈 操作 、 条 件 和 无 条 件 分 支 以 及 子 程序 调用 。 由 于 x86 架构 提供 了 
许多 指令 ， 因 此 程序 员 可 以 选择 多 种 机 制 来 执行 给 定 任务 。 设 计 了 一 个 64 位 扩展 ， 名 为 x64。 
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D.1 引言 


前 面 的 附录 概述 了 x86 和 x64 体系 结构 。 正 如 我 们 所 看 到 的 ，x86 是 CISC 指令 集 的 典 
型 示例 。 通 过 提供 有 关 ARM 体系 结构 的 信息 ， 本 附录 继续 讨论 。ARM 提供 了 RISC 体系 结 
构 的 典型 示例 。 

尽管 ARM 已 定义 了 一 组 处 理 器 ,但 本 附录 重点 介绍 大 多 数 32 位 ARM 产品 所 共有 的 特 
征 。 有 关 具 体 模型 的 详细 信息 ， 请 参阅 ARM 文档 。 


D.2 ARM 处 理 器 的 寄存 器 


ARM 处 理 器 具有 16 个 编号 为 0 到 15 的 通用 寄存 器 ， 通 常用 名 称 r0 到 r15 表示 。 寄 存 
器 r0 到 r3 用 于 将 参数 传递 给 被 调用 的 子 例 程 并 将 结果 传递 回调 用 者 。 寄 存 器 路 到 rll 用 于 
保存 当前 正在 运行 的 子 例 程 的 局 部 变量 。 寄 存 器 r12 是 一 个 程序 内 调用 暂 存 寄存 器 。 寄 存 器 
r13 是 堆栈 指针 。 寄 存 器 r14 是 一 个 链接 寄存 器 ， 用 于 子 程序 调用 。 最 后 ， 寄 存 器 r15 是 程 
序 计数 器 ( 即 指令 指针 )。 因 此 ， 将 地 址 加 载 到 rl5 会 导致 处 理 器 分 支 到 该 地 址 。 图 D.1 总 
结 了 寄存 器 的 用 途 ， 并 给 出 了 gcc 汇编 器 使 用 的 备用 名 称 。 


用 途 


程序 计数 器 

链接 寄存 器 ， 用 于 子 程序 调用 
堆栈 指针 

程序 内 调用 暂 存 寄 存 器 

栈 帧 指针 或 参数 指针 

堆栈 限制 





局 部 变量 6 ( 或 实 栈 帧 指针 ) 


局 部 变量 5 
局 部 变量 4 
局 部 变量 3A 
局 部 变量 2 
局 部 变量 1 
函数 调用 时 的 第 4 参数 
函数 调用 时 的 第 3 参数 
函数 调用 时 的 第 2 参数 
函数 调用 时 的 第 1 参数 


图 D.1 ARM 体系 结构 中 的 通用 寄存 器 ， 汇 编 语言 中 使 用 的 替换 名 称 ， 以 及 每 个 寄存 器 被 赋 
予 的 用 途 和 含义 





除 通 用 寄存 器 外 ， 每 个 ARM 处 理 器 还 有 一 个 32 位 的 当前 程序 状态 寄存 器 ( CPSR)。 
CPSR 分 为 许多 字段 ， 包 括 控制 处 理 器 模式 和 操作 、 控 制 中 断 、 在 操作 后 报告 条 件 码 、 报 告 
硬件 错误 以 及 控制 系统 的 字 节 序 的 字段 。 图 D.2 总 结 了 CPSR 中 的 位 字段 。 
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位 范围 


处 理 正式 


图 D.2 ARM CPSR 中 的 位 及 其 含义 





D.3 ARM 调用 约定 

编程 语言 支持 一 种 调用 机 制 ， 其 中 一 段 代 码 调 用 子 例 程 ， 子 例 程 执行 ， 控 制 传 递 回调 用 
发 生 的 点 。 就 运行 时 环境 而 言 ， 子 例 程 调用 被 推送 到 运行 时 堆栈 。 我 们 说 代码 在 调用 子 例 程 
时 成 为 调用 者 ， 并 使 用 术语 被 调用 者 来 指 代 调 用 的 子 例 程 。 在 C 编程 语言 中 ， 子 程序 被 称 
为 子 数 ; 我们 将 在 附录 的 其 余部 分 中 使 用 该 术语 。 

虽然 硬件 对 函数 调用 设置 了 约束 ， 但 程序 员 或 编译 器 可 以 自由 选择 一 些 细 节 。 在 本 附录 
中 ,我们 将 描述 gce 遵循 的 调用 约定 ， 这 些 约定 已 被 广泛 接受 。 

ARM 的 参数 传递 约定 具有 以 下 特征 : 

。 人 允许 调用 者 将 零 个 或 多 个 参数 传递 给 被 调用 者 。 

。 优化 前 四 个 参数 的 访问 权限 。 

e 允许 被 调用 者 将 一 组 结果 返回 给 调用 者 。 

。 指定 被 调用 者 可 以 更 改 的 寄存 器 以 及 调用 返回 时 必须 保持 不 变 的 寄存 器 。 

e 指定 调用 函数 并 返回 时 如 何 使 用 运行 时 堆栈 。 

许多 函数 具有 四 个 或 更 少 的 参数 。 为 了 优化 前 四 个 参数 的 访问 ， 这 些 值 在 通用 寄存 器 
al 到 a4 中 传递 《 即 寄存 器 r0 到 r3 )。 其 他 参数 放 入 内存 中 的 堆栈 上 。 因 为 被 调用 者 只 能 通 
过 引用 寄存 器 来 访问 前 四 个 参数 ， 所 以 访问 速度 非常 快 。 

被 调用 者 可 以 使 用 寄存 器 al 到 a4 将 结果 返回 给 调用 的 程序 。 在 大 多 数 编程 语言 中 ， 天 
数 只 返回 一 个 结果 ， 可 以 在 寄存 器 al 中 找到 。 如 果 参 数 或 结果 大 于 32 位 ， 则 将 该 值 放 入 存 
储 器 中 ， 并 将 地 址 传递 给 参数 寄存 器 。 

图 D.3 显示 了 函数 调用 后 即刻 的 堆栈 布局 示例 。 该 示例 将 阐明 调用 约定 并 解释 在 函数 调 
用 期 间 如 何 保留 寄存 器 值 。 

在 图 D.3 中 ， 函 数 4 正在 执行 并 调用 了 函数 了 妃 ， 郴 数 刀 有 六 个 参数 。 前 四 个 参数 在 寄 
存 器 ?中 传递 ， 这 意味 着 它们 不 会 出 现在 堆栈 中 。 但 是 ， 必 须 在 堆栈 上 传递 超出 前 四 个 的 参 


日 回想 一 下 ， 前 四 个 参数 在 寄存 器 al 到 a4 中 传递 。 
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数 。 因 此 ， 函 数 4 在 调用 函数 8 之 前 以 相反 的 顺序 将 参数 5 和 参数 6 压 人 运行 时 堆栈 。 如 
图 D.3 所 示 ， 人 额外 的 参数 是 调用 发 生 时 堆栈 中 的 最 后 两 个 项 。 


已 保存 的 Ir (r14) 拟 一 了 苑 数 4 返 回 的 地 址 
已 保存 的 fp (17) 


已 的 寄存 器 
区 当 函 数 4 开 始 时 
以 及 保存 的 值 
r8~—rll 


用 于 函数 4 
(调用 者 ) 
的 堆栈 区 域 函数 4 的 局 部 变量 
在 调用 函数 B 之 前 
由 函数 4 使 用 的 堆栈 
函数 B 的 参数 6 在 前 四 个 参数 之 后 传递 
函数 8 的 参数 5 给 函数 8 的 额外 参数 
已 保存 的 Ir (r14) 瑟 一 一 际 数 8 返回 的 地 址 
已 保存 的 fp (r7) 
已 保存 的 寄存 器 
用 于 函数 有 14~r6 当 函 数 B 开 始 时 
| 以 及 保存 的 值 


用 于 函数 B 的 
局 部 变量 





堆栈 向 下 增长 
图 D.3 在 函数 4 调用 使 用 六 个 参数 的 函数 8 之后， 运行 时 堆栈 上 的 布局 


调用 者 期 望 在 函数 调用 期 间 保留 大 多 数 通用 寄存 器 中 的 值 。 也 就 是 说 ， 调 用 者 期 望 被 调 
用 的 函数 不 会 干扰 寄存 器 的 值 。 当 然 ， 大 多 数 函 数 都 需要 使 用 寄存 器 。 因 此 ， 被 调用 的 函数 
在 进入 时 保存 寄存 器 内 容 并 在 返回 之 前 恢复 它们 。 如 图 D.3 所 示 ， 函 数 刀 中 的 前 置 代 码 将 链 
接 寄存 器 (r14 )、 帧 指针 (r7 )、 寄 存 器 r4 至 r6 以 及 寄存 器 r8 至 rll 压 入 堆栈 中 。 了 函数 B 中 
的 前 置 代 码 然后 在 堆栈 上 为 其 局 部 变量 (如 果 有 的 话 ) 保留 空间 。 一 旦 分 配 了 本 地 存储 ， 函 
数 就 可 以 运行 了 。 在 函数 8 返回 之 前 ， 函 数 中 的 后 置 代码 运 行 。 后 置 代码 用 堆栈 中 保存 
的 值 恢复 寄存 器 ， 并 使 堆栈 与 调用 前 完全 一 样 。 
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程序 员 需 要 学 习 哪 些 计算 机 体系 结构 知识 ? 本 书 从 这 一 视角 出 发 ， 清 晰 闻 释 了 体系 结构 的 整体 脉络 ， 但 
不 深入 硬件 设计 和 工程 细节 。 掌 握 这 些 核 心 概念 有 助 于 程序 员 理解 硬件 /软件 接口 ， 在 构建 软件 系统 时 更 加 高 
效 ， 在 调试 时 更 加 快速 地 定位 问题 

本 书 分 为 五 大 部 分 。 第 一 部 分 介绍 数字 逻辑 、 门 电路 、 数 据 通路 和 数据 表示 的 基础 知识 。 第 二 至 四 部 分 
涵盖 计算 机 体系 结构 的 三 个 主要 方面 一 一 处 理 器 、 存 储 器 和 IO 系统， 每 一 章 都 包含 足够 的 背景 知识 ， 帮 助 
读者 了 解 计算 机 各 主要 部 件 的 工作 原理 及 其 对 程序 设计 的 影响 。 第 五 部 分 涉及 并 行 、 流 水 线 、 能 耗 和 性 能 匀 
高 级 主题 。 第 2 版 添加 了 两 个 全 新 的 章节 ， 并 在 整体 上 做 了 与 时 俱 进 的 修订 。 


此 外 ， 本 书 网 站 eca.cs.purdue.edu 提 供 了 多 种 教学 资源 供 读 者 免费 下 载 ， 包 括 PPT 和 实验 指导 等 。 
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